Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Tablas de frecuencias para datos cualitativos y cuantitativos, Diapositivas de Probabilidad y Procesos Estocásticos

Cómo elaborar tablas de distribución de frecuencias para datos cualitativos y cuantitativos. Se incluyen ejemplos y procedimientos para calcular la media aritmética, la mediana, la moda, los cuartiles y los percentiles. También se presenta el análisis exploratorio mediante diagramas tallo-hoja y caja-brazos.

Tipo: Diapositivas

2022/2023

Subido el 04/03/2024

antonio-martinez-b31
antonio-martinez-b31 🇲🇽

1 documento

1 / 207

Toggle sidebar

Documentos relacionados


Vista previa parcial del texto

¡Descarga Tablas de frecuencias para datos cualitativos y cuantitativos y más Diapositivas en PDF de Probabilidad y Procesos Estocásticos solo en Docsity! o CONACYT Estadística Junio 2019 SI, ES na E Objetivo del curso • Proporcionar a personal de la ITP capacitación técnica y teórica en probabilidad y estadística que les permita incrementar sus competencias profesionales para el análisis e interpretación de datos de fenómenos no deterministas. 2 Introducción 5  Inicialmente la Probabilidad estuvo ligada a los juegos de azar.  Actualmente es la rama de las Matemáticas con mayor influencia en todos los campos, directamente o a través de la Estadística.  El término Estadística tiene significados distintos para las personas, siendo el más común el relacionado con números.  Cantidad de delitos en una determinada región, dividida por tipo.  Situación económica: precio de la canasta básica, tasa de empleo, precio de los energéticos, etc.  Situación política: Mayorías en las cámaras legislativas, obras realizadas, presupuesto erogado, deuda pública, etc. Deportes: juegos ganados y perdidos, efectividad de bateo, velocidad de la pelota, número de anotaciones, etc.  Para otros: Es un método para , presentar y escribir grandes cantidades de datos, y para otras es un método para tomar decisiones en situaciones bajo incertidumbre. Estadística  Es algo más que la recolección y publicación (tal cual se ven en revistas y diarios) de hechos y datos numéricos.  Se puede considerar como la aplicación del método científico de análisis de datos numéricos, con el fin de tomar decisiones racionales.  La estadística enseña cómo razonar de manera lógica y tomar decisiones informadas en presencia de incertidumbre y variación. Estadística: Es una ciencia interdisciplinar que utiliza un conjunto de técnicas y métodos para recoger, preparar, organizar, resumir, hallar regularidades, analizar e interpretar datos del fenómeno en estudio, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; con el fin de obtener conclusiones o hacer predicciones sobre el fenómeno y tomar decisiones más acertadas. 6 Funciones de la Estadística  Resumen de los datos y extracción de información relevante.  Búsqueda y evaluación de los modelos y pautas que ofrecen los datos, pero que se encuentran ocultos por la inherente variabilidad de los mismos.  Contribuir al diseño eficiente de experimentos y encuestas.  Facilitar la comunicación entre los científicos.  La autentificación científica, utilizar adecuadamente los métodos estadísticos de acuerdo a las necesidades.  Medición de relaciones entre variables.  Predicción de fenómenos según los datos históricos. 7 Conceptos Básicos Dato. Es un valor particular de una variable. Censo. Es un listado de una o más características de todos los elementos de la población. Encuesta. Instrumento mediante el cual se obtiene información a través de un conjunto de preguntas o afirmaciones. Parámetro. Cantidad numérica calculada sobre una población y resume los valores que esta toma en algún atributo. Estadístico. Es una cantidad numérica calculada sobre una muestra que resume su información sobre algún aspecto. 10 Variables Dependiendo de los valores que tome la variable, se clasifica en: Variable Cualitativa. Describe cualidades o atributos, sus posibles valores son categorías o modalidades. Se subdividen en: • Nominales. Sus valores son categorías o nombres que no guardan un orden (sexo, religión, color). •Ordinales. Sus valores son categorías o nombres que representan un orden y jerarquía (nivel educativo, calidad de la atención, nivel de seguridad). 11 Variables 12 Variable cuantitativa. Sus valores son numéricos y tienen sentido las operaciones algebraicas. Se subdividen en: • Discretas. Toma valores enteros (número de hijos, numero de empleados, número de robos, numero de pobres). • Continuas. Toma valores reales (peso, estatura, salario, área de una superficie, distancia). Técnicas de Muestreo La muestra de una población se considera necesaria dada la economía que ofrece en costo y tiempo de análisis. Muestreo Aleatorio. Se usa cuando a cada elemento de la población se le quiere dar la misma oportunidad de ser elegido en la muestra. Muestreo Estratificado. Se usa cuando se conoce de antemano que la población esta dividida en estratos, que son equivalentes a categorías y los cuales por lo general no son de igual tamaño. Luego, de cada estrato se saca una muestra aleatoria, usualmente proporcional al tamaño del estrato. Muestreo por Conglomerados. En este cado la población se divide en grupos conglomerados. Luego se elige al azar un cierto número de ellos y todos los elementos de los conglomerados elegidos forman la muestra. Muestreo Sistemático. Se usa cuando los datos de la población están ordenados en forma numérica. La primera observación es elegida al azar de entre los primeros elementos de la población y las siguientes observaciones son elegida guardando la misma distancia entre si. 15 Método de análisis estadístico 1. Identificación y delimitación del problema: ¿Qué se quiere saber? ¿Cuáles son las variables involucradas? 2. Determinar y delimitar la Población. 3. Decidir la conveniencia de seleccionar una muestra. 4. Establecer un método de muestreo. 5. Diseñar e implementar un instrumento de recolección de datos. 6. Obtener estadísticos o parámetros. 16 Ejercicios propuestos 1. Un fabricante de medicamentos está interesado en la proporción de personas que padece hipertensión cuya condición pueda ser controlada por un nuevo producto desarrollado por la empresa. Se condujo un estudio en el que participaron 5 000 personas que padecen de hipertensión, y se encontró que el 80% de las personas pueden controlar su hipertensión con el medicamento. Suponiendo que las 5 000 personas son representativas del grupo con hipertensión, conteste las siguientes preguntas: ¿Cuál es la población? ¿Cuál es la muestra? Identifique el parámetro de interés. ¿Cuál es el estadístico? ¿Se conoce el valor del parámetro? 2. Un técnico de control de calidad selecciona piezas ensambladas de una línea de montaje y registra la siguiente información sobre cada pieza: A: Defectuosa o no defectuosa. B: El número de identificación del trabajador que ensambló la pieza. C: El peso de la pieza. ¿Cuál es la población? La población ¿es finita o infinita? ¿Cuál es la muestra? Clasifique las respuestas para cada una de las variables. Introducción Pasos previos:  Determinar el objetivo del estudio estadístico.  Identificar la población de interés.  Seleccionar una muestra representativa.  Aplicar el instrumento diseñado para obtener datos. Con lo anterior se obtiene un conjunto de datos para los que se deberán presentar ordenadamente sus aspectos más importantes, de una forma rápida y sencilla de interpretar y con una vista estética. Para analizar, interpretar y presentar los datos se utiliza parte de la estadística descriptiva:  Métodos tabulares.  Métodos gráficos. 20 Métodos Tabulares Tabla de distribución de frecuencias. Es un resumen de un conjunto de datos que muestra el número de elementos de cada una de las clases que no se traslapan, en ella se presenta la frecuencia absoluta, frecuencia relativa, frecuencia porcentual y frecuencias acumuladas. Frecuencia Absoluta (FA). Contabilizan el número de elementos de cada clase. Frecuencia Relativa (FR). Fracción o proporción, de elementos en cada clase. Frecuencia Porcentual (FP). Porcentaje de elementos en cada clase. 21 Métodos Tabulares 22 Frecuencia Absoluta Acumulada (FAA). Suma las frecuencias absolutas de la clase y las clases anteriores. Frecuencia Relativa Acumulada (FRA). Suma las frecuencias relativas de la clase y las clases anteriores. Frecuencia Porcentuales Acumulada (FPA). Suma las frecuencias porcentuales de la clase y las clases anteriores. Ejemplo Clase FA FAA FR FRA FP FPA Muy efectivo 3 3 0.06 0.06 6 6 Algo efectivo 13 16 0.26 0.32 26 32 Poco efectivo 15 31 0.3 0.62 30 62 Nada efectivo 12 43 0.24 0.86 24 86 No sabe 7 50 0.14 1 14 100 25 Tablas de frecuencias para datos Cuantitativos Para elaborar una tabla de distribución de frecuencias de datos cuantitativos se requiere obtener las clases, en este caso si la cantidad de datos es menor a 15 cada dato diferente es una clase. Si la cantidad de datos es mayor a 15 se deben crear intervalos que serán las clases, el procedimiento es el siguiente: Número de Clases NC = 3.33 (Log n) + 1 Ancho de clase AC = (Valor Máx. – Valor Min) / NC Posteriormente se forman los intervalos semicerrados, cerrados por la izquierda y abiertos por la derecha. El primer intervalo tiene como extremo inferior el valor mínimo del conjunto de datos y el extremo superior es la suma del limite inferior mas el ancho de clase. El segundo intervalo o clase se conforma por el limite superior del intervalo anterior y la suma de éste y el ancho de clase; el mismo proceso se efectúa para las siguientes clases. 26 Ejemplo Se realizan investigaciones para producir fibras textiles a partir de fibras de turba. Ello permitiría tener una fuente de materia prima barata para las industrias textil y papelera. Una variable que se estudia es X, el porcentaje de contenido de cenizas de una variedad particular de musgo de turba. Suponga que se obtienen las observaciones siguientes con una muestra de 50 musgos: 27 0.5 1.8 4 1 2 1.1 1.6 2.3 3.5 2.2 2 3.8 3 2.3 1.8 3.6 2.4 0.8 3.4 1.4 1.9 2.3 1.2 1.9 2.3 2.6 3.1 2.5 1.7 5 1.3 3 2.7 1.2 1.5 3.2 2.4 2.5 1.9 3.1 2.4 2.8 2.7 4.5 2.1 1.5 0.7 3.7 1.8 1.7 Gráficos para Datos Cualitativos Gráfico de Pastel. Forma gráfica de presentar resúmenes de datos cualitativos, basado en la subdivisión de un circulo en sectores que corresponden a la frecuencia relativa o frecuencia porcentual de cada clase. 30 Gráficos de Datos Cuantitativos Histograma. Presentación gráfica de una distribución de frecuencias de datos cuantitativos; se traza colocando los intervalos de clase sobre el eje horizontal y las frecuencias sobre el eje vertical. 31 Gráficos de Datos Cuantitativos Gráfico Circular. Forma gráfica de presentar resúmenes de datos cuantitativos, basado en la subdivisión de un circulo en sectores que corresponden a la frecuencia relativa o frecuencia porcentual de cada intervalo de clase. 32 Gráficos de Asociación para dos Variables Diagrama de Dispersión Es una representación gráfica de la relación entre dos variables cuantitativas. Ejemplo. En 10 ocasiones, en los últimos tres meses, un almacén ha usado comerciales de televisión los fines de semana para promover sus ventas. Los gerentes desean investigar si hay una relación entre la cantidad de comerciales transmitidos y las ventas durante la semana siguiente, a continuación se muestra la información. Semana No.de Comerciales Volumen de ventas (millones de pesos) 1 2 50 2 5 57 3 1 41 4 3 54 5 4 54 6 1 38 7 5 63 8 3 48 9 4 59 10 2 46 Se puede observar que entre más comerciales se transmitieron, hubo más venta. 35 CONACYT InA0e 3. Una encuesta aplicada a 600 adultos sobre el interés de éstos en el futbol soccer. Proporciono los siguientes resultados. Respuesta Porcentaje Muy interesado 9% Algo interesado 23% No muy interesado 20% Nada interesado 46% No está interesado 2% Obtenga las frecuencias. Elabore un gráfico. Identifique la Población. Identifique el estadístico. 4. Un policía de una ciudad, usando radar, verificó la velocidad de los automóviles que circulaban por una calle de la ciudad. 27 23 22 38 43 24 25 23 22 52 31 30 29 28 26 33 25 27 25 21 23 24 18 23 a. Identifique la población. b. Identifique el parámetro. c. Elabora un gráfico. Medidas de Tendencia Central Media aritmética  Medida que más se utiliza para describir un conjunto de datos.  Tiene la ventaja de ser muy fácil de calcular.  Posee propiedades teóricas excelentes desde un punto de vista de la estadística inferencial.  Su desventaja es que, por ser el punto de equilibrio de los datos, es muy sensible a la presencia de observaciones extremas. La media aritmética se define como el promedio de n observaciones de la variable X, y se calcula dividiendo la suma de los n datos entre el total de datos ( n ). Muestral Poblacional 40 Medidas de Tendencia Central Media aritmética Ejemplo. *Se requiere saber cuantas quejas por fallos en maquinaria se realizan en la empresa X, para ellos se elijen 30 días del primer semestre del año 2018 y se contabilizan las quejas realizadas en los días elegidos, obteniendo los siguientes resultados: 145, 80, 185, 64, 76, 157, 84, 152, 175, 128, 78, 185, 129, 163, 144, 92, 143, 207, 136, 175, 182, 94, 142, 83, 72, 98, 137, 163, 141, 84. En el primer semestre de 2014 en la ciudad X se realizaron en promedio 129.8 denuncias ciudadanas por robo a mano armada diariamente. *En el primer trimestre del 2018 en la empresa X se realizaron en promedio 129.8 quejas por fallos en la maquinaria diariamente. 41 Medidas de Tendencia Central Mediana (Md)  Dado que la media aritmética es una medida de centralización que se ve afectada por valores extremos, es necesario contar con otra medida central: la mediana.  La mediana de un conjunto de n número, ordenados de menor a mayor, es el número central en el arreglo. Existen dos casos para encontrarla:  Si el número de datos n es un número non o impar, la mediana será el valor central de los datos.  Si el número de datos n es un número par, hay dos valores centrales y la mediana se calculará obteniendo la media aritmética de estos valores. La mediana, es un valor que divide a los datos en mitades. Una con todas las observaciones mayores o iguales a la mediana y otra con aquéllas menores o iguales a ella. Para conjuntos de datos con distribución de frecuencias asimétrica o sesgada la mediana es mejor medida de centralización que la media aritmética. 42 Medidas de Tendencia Central para Datos Agrupados Donde: Media aritmética muestral Frecuencia de la clase i Valor medio o marca de la clase i Número de datos  = Media aritmética poblacional N = Tamaño de la población Media aritmética Poblacional Muestral 45 Medidas de Tendencia Central para Datos Agrupados Mediana Md = Donde: Md = Mediana = Límite inferior de la clase que contiene a la mediana n = Número total de datos = Frecuencia acumulada absoluta de la clase inmediata inferior a la clase que mediana contiene a la mediana = Frecuencia de la clase que contiene a la mediana i = intervalo de clase 46 Para calcular la mediana en datos agrupados es necesario: 1.-Determinar cual es la posición de la mediana, para lo cual se dividirá el número total de datos entre 2, el valor obtenido de esta operación indicará su posición. 2.-Detectar la clase que contiene a la mediana, la cual será aquella cuya frecuencia acumulada absoluta sea igual o mayor al valor encontrado en el paso anterior. 3.- Sustituir la siguiente fórmula en función a la clase mediana. Medidas de Tendencia Central para Datos Agrupados Moda (Mo) Para calcular la moda en datos con una distribución de frecuencia con intervalos de clase iguales, primero se tiene que identificar la clase que contiene la moda, la cual recibe el nombre de clase modal, ésta será aquella que posea la mayor frecuencia absoluta, posteriormente se sustituirá la fórmula siguiente: Donde: = Límite inferior de la clase modal Mo = Moda = Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase inmediata inferior. = Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase inmediata superior. i = intervalo de clase Mo = 47 Ejemplo Moda En el primer semestre de 2018, lo más común es que se realicen 150.6667 quejas por fallos de maquinaria en la empresa X. Clase fi [64, 87.8333) 8 [87.8333, 111.6667) 3 [111.6667, 135.5) 2 [135.5, 159.3333) 9 [159.3333, 183.1667) 5 [183.1667, 207] 3 50 Relación entre Media, Mediana y Moda Para detectar la forma de una curva de frecuencias en términos de la asimetría, es necesario encontrar los valores de las tres mediadas de centralización y analizar los siguientes casos: a) Cuando el valor de la media es igual al de la mediana y la moda, se dice que una distribución unimodal es simétrica. (Media = Mediana = Moda) b) Si la media aritmética es mayor de las tres y la mediana mayor a la moda pero menor que la media, se dice que la distribución unimodal es asimétrica a la derecha o sesgada a la derecha (Media > Mediana > Moda) c) Si la media aritmética es menor a la tres y la mediana es inferior a la moda pero mayor a la media, entonces la distribución unimodal será asimétrica a la izquierda o sesgada a la izquierda (Media < Mediana < Moda) 51 Medidas de Dispersión  También se conocen como medidas de variación.  Indican si los datos están próximos entre sí o sí están dispersos, es decir, nos indican cuán esparcidos se encuentran los datos.  Permiten apreciar la distancia que existe entre los datos a un cierto valor central e identificar la concentración de los mismos en un cierto sector de la distribución.  Cuando una distribución de datos tiene poca dispersión toma el nombre de distribución homogénea y si su dispersión es alta se llama heterogénea.  Las medidas dispersión son:  Varianza.  Desviación estándar.  Coeficiente de variación. 52 Medidas de Dispersión Desviación Estándar La desviación estándar es "el promedio de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, σ, según se calcule en una muestra o en la población. Muestral Poblacional N x N i xi    1 2)(   Donde: = dato i-ésimo = Media aritmética muestral = Media aritmética poblacional n = cantidad de datos N = Tamaño de la población 55 Medidas de Dispersión Ejemplo. Se quiere saber la desviación estándar de la cantidad de quejas por fallos de maquinaria en la empresa X, para ello se eligen 30 días del primer semestre del año 2018 y se contabilizan las denuncias realizadas en los días elegidos, obteniendo los siguientes resultados: 145, 80, 185, 64, 76, 157, 84, 152, 175, 128, 78, 185, 129, 163, 144, 92, 143, 207, 136, 175, 182, 94, 142, 83, 72, 98, 137, 163, 141, 84. En el ejemplo anterior se obtuvo una varianza de 1693.5448 para los mismos datos, como la desviación estándar es la raíz de la varianza entonces: =41.1527 Las quejas por fallos de maquinaria varían en 41.1527 quejas diarias alrededor de 129.8 que es el promedio en el primer semestre de 2018 en la empresa X. 56 Medidas de Dispersión Coeficiente de Variación Es una medida de dispersión que se utiliza para poder comparar las desviaciones estándar de poblaciones con diferentes medias y se calcula como cociente entre la desviación típica y la media. 100% S CV x   100%CV    Muestra Población 57 Ejemplo Suponga que los datos fallos de maquinaria en la empresa X se los dan en una tabla de frecuencia como se muestra a continuación. Calcule la varianza, desviación estándar y coeficiente de variación. Clase fi [64, 87.8333) 8 [87.8333, 111.6667) 3 [111.6667, 135.5) 2 [135.5, 159.3333) 9 [159.3333, 183.1667) 5 [183.1667, 207] 3 60 Solución 61 Clase fi vi fi(vi-X)^2 [64, 87.8333) 8 75.9167 24038.9356 [87.8333, 111.6667) 3 99.7500 2879.9008 [111.6667, 135.5) 2 123.5833 102.2450 [135.5, 159.3333) 9 147.4167 2505.0025 [159.3333, 183.1667) 5 171.2500 8208.0014 [183.1667, 207] 3 195.0833 12422.7675 100% S CV x   La varianza de las quejas por fallos de maquinaria en la empresa X es de 1729.5466, la desviación estándar de 41.5878 y el 31.81% de las quejas están alrededor de 130.73333 Medidas de Posición Las medidas de posición sirven para describir la localización de un dato específico en relación con el resto. Cuartiles Divide a un conjunto de datos en cuatro partes. Se ordena los datos de forma ascendente y después se localiza el valor cuya posición es la siguiente: Donde: n es el numero de datos. K es el numero de cuartil que se esta buscando, K=1,2,3. 62 Ejemplo 65 64 72 76 78 80 83 84 84 92 94 98 128 129 136 137 141 142 143 144 145 152 157 163 163 175 175 182 185 185 207 Cuartil 2 50% de los días se realizan a lo más139 quejas por fallos de maquinaria en la empresa X. Cuartil 3 75% de los días se realizan a lo más163 quejas por fallos de maquinaria en la empresa X. Medidas de Posición Deciles Divide a un conjunto de datos en diez partes. Se ordena los datos de forma ascendente y después se localiza el valor cuya posición es la siguiente: Donde: n es el numero de datos. K es el numero de decil que se esta buscando, K=1,2,3,4,5,6,7,8,9. 66 Medidas de Posición 67 Si lk es entero entonces: Si lk no es entero entonces: Donde: Dk = Decil que se desea calcular, k=1,2,3,4,5,6,7,8,9. Vli = Valor que corresponde a la posición entera inferir del calculo de lk . Vls = Valor que corresponde a la posición entera superior del calculo de lk . f = parte fraccionaria de lk Deciles Medidas de Posición Percentiles Divide a un conjunto de datos en cien partes. Se ordena los datos de forma ascendente y después se localiza el valor cuya posición es la siguiente: Donde: n es el numero de datos. K es el numero de decil que se esta buscando, K=1,2,3,…,98,99. 70 Medidas de Posición 71 Si lk es entero entonces: Si lk no es entero entonces: Donde: Pk = Percentil que se desea calcular, k=1,2,3,…,98,99. Vli = Valor que corresponde a la posición entera inferir del calculo de lk . Vls = Valor que corresponde a la posición entera superior del calculo de lk . f = parte fraccionaria de lk Percentiles Ejemplo A continuación se presentan los datos de quejas por fallos de maquinaria en la empresa X de 30 días elegidos al azar durante el primer semestre del año 2018. 145, 80, 185, 64, 76, 157, 84, 152, 175, 128, 78, 185, 129, 163, 144, 92, 143, 207, 136, 175, 182, 94, 142, 83, 72, 98, 137, 163, 141, 84. Obtenga los Percentiles 10, 50 y 90. 64 72 76 78 80 83 84 84 92 94 98 128 129 136 137 141 142 143 144 145 152 157 163 163 175 175 182 185 185 207 Percentil 10 10% de los días se realizan a lo más 77 quejas por fallos de maquinaria en la empresa X. 72 Medidas de Posición para Datos Agrupados Deciles Donde: k= Número de decil que se requiere Dk = Decil que se desea calcular = Límite inferior de la clase que contiene a la mediana n = Número total de datos = Frecuencia acumulada absoluta de la clase inmediata inferior a la clase que mediana contiene a la mediana = Frecuencia de la clase que contiene a la mediana i = intervalo de clase Se obtiene la posición Se localiza en que clase se encuentra el dato y posteriormente se calcula. 75 Medidas de Posición para Datos Agrupados Percentil Donde: k= Número de percentil que se requiere Dk = Percentil que se desea calcular = Límite inferior de la clase que contiene a la mediana n = Número total de datos = Frecuencia acumulada absoluta de la clase inmediata inferior a la clase que mediana contiene a la mediana = Frecuencia de la clase que contiene a la mediana i = intervalo de clase Se obtiene la posición Se localiza en que clase se encuentra el dato y posteriormente se calcula. 76 Ejemplo Suponga que los datos de fallos de maquinaria en la empresa X se los dan en una tabla de frecuencia como se muestra a continuación. Calcule Q1,Q3, D7, P10 y P90. Clase fi [64, 87.8333) 8 [87.8333, 111.6667) 3 [111.6667, 135.5) 2 [135.5, 159.3333) 9 [159.3333, 183.1667) 5 [183.1667, 207] 3 77 Medidas de Sesgo y Forma Son medidas que determinan numéricamente algunas características de la forma en que están distribuidos los datos. Entre estas medidas se tiene: el coeficiente de asimetría o coeficiente de sesgo y el coeficiente de curtosis. Coeficiente de asimetría o coeficiente de sesgo. Con frecuencia una distribución no es simétrica alrededor de ningún valor, pero en lugar de ello se tiene que los datos están más aglomerados o distribuidos hacia los extremos. Si hay pocos datos distribuidos hacia el extremo derecho se dice que la distribución es sesgada a la derecha, mientras que si hay pocos datos distribuidos hacia la izquierda , se dice que la distribución es sesgada hacia la izquierda. La medidas que describe esta asimetría se denominan coeficiente de sesgo de Pearson. 80 Medidas de Sesgo y Forma 81 Coeficiente de Sesgo Para una distribución simétrica, el valor del coeficiente de sesgo es cero, puesto que la media y la mediana tienen el mismo valor, y en general, sus valores pueden ser entre -3 y +3. Un valor negativo del coeficiente indica un sesgo hacia la izquierda, mientras que un valor positivo indica un sesgo hacia la derecha. Ejemplo A continuación se presentan los datos de quejas por fallos de maquinaria en la empresa X de 30 días elegidos al azar durante el primer semestre del año 2018. 145, 80, 185, 64, 76, 157, 84, 152, 175, 128, 78, 185, 129, 163, 144, 92, 143, 207, 136, 175, 182, 94, 142, 83, 72, 98, 137, 163, 141, 84. Obtenga el sesgo de los datos anteriores. =41.1527 La cantidad de quejas por fallos de maquinaria están ligeramente sesgadas a la izquierda. 82 Ejercicios propuestos 1. A los reclutas de una academia de policía se les solicitó presentar un examen que mide la capacidad que tienen para hacer ejercicio. Esta capacidad (medida en minutos) se obtuvo para cada uno de los 20 reclutas: 25 27 30 33 30 32 30 34 30 27 26 25 29 31 31 32 34 32 28 33 30 a. Encuentre la media, la mediana y la moda. b. Elabore una gráfica y localice la media, la mediana y la moda. c. Describe la relación que hay entre las tres medidas. 1.A 15 estudiantes universitarios, elegidos aleatoriamente, se les solicito mencionar el número de horas que durmieron la noche anterior. Los datos resultantes fueron 5, 6, 6, 8, 7, 7, 9, 5, 4, 8, 11, 6, 7, 8, 7. Encuentre lo siguiente: 1.La media, la mediana y la moda. 2.La varianza y desviación estándar. 3.El coeficiente de variación. 2.Un estudio de investigación sobre destreza manual implicaba la determinación del tiempo necesario para completar un tarea. A continuación se muestra el tiempo necesario para cada uan de las personas con discapacidad. 7.1 7.2 7.2 7.6 7.6 7.9 8.3 8.4 8.4 8.4 8.9 9.0 9.0 9.4 9.6 9.9 10.1 10.1 10.1 10.2 10.3 11.0 11.1 11.2 a. Encuentra la media, la mediana y la moda. b. compara las medidas anteriores. c. Calcula el coeficiente de variación. 3. A continuación se muestra el puntaje anotado por un equipo de baloncesto de preparatoria en cada partido de la temporada pasada: 56 54 61 71 46 61 55 68 60 66 57 54 61 52 36 64 51 47 58 60 65 •Identifique la población, la muestra, el estadístico, y la o las variables. •¿Cuál es el sesgo de los datos? •¿Cuál es el corte de la curva que forman los datos? •¿Cómo están distribuidos los datos? •Elabora un gráfico que represente lo anterior. 4. Un policía de una ciudad, usando radar, verificó la velocidad de los automóviles que circulaban por una calle de la ciudad. 27 23 22 38 43 24 25 23 22 52 28 31 30 29 28 26 33 25 27 25 21 23 24 18 23 •¿Cuál es el sesgo de los datos? •¿Cuál es el corte de la curva que forman los datos? •¿Cómo están distribuidos los datos? 5.A los reclutas de una academia de policía se les solicitó presentar un examen que mide la capacidad que tienen para hacer ejercicio. Esta capacidad (medida en minutos) se obtuvo para cada uno de los 20 reclutas: 25 27 30 33 30 32 30 34 30 27 26 26 25 29 31 31 32 34 32 33 30 •Identifique la población, la muestra, el estadístico, y la o las variables. •¿Cuál es el sesgo de los datos? •¿Cuál es el corte de la curva que forman los datos? •¿Cómo están distribuidos los datos? Longitud de Vida Frecuencia 500 – 600 3 600 – 700 7 700 – 800 14 800 – 900 28 900 – 1000 64 1000 – 1100 57 1100 – 1200 23 1200 – 1300 13 1300 -1400 7 1400 – 1500 4 6 Se obtuvo “la longitud de vida” de 220 lámparas incandescentes de 60 watts, que produjo la distribución de frecuencias que se muestra en la siguiente tabla. •Determine la población, es estadístico y la variable. •Calcule las medidas de tendencia central y de dispersión •¿Cuál es el sesgo? •Calcula el coeficiente de Kurtosis. Análisis Exploratorio Diagrama Tallo-Hoja Cuando se tenga muchas observaciones, la construcción de un diagrama de puntos para estos datos es ineficiente; existen presentaciones visuales más eficaces para conjuntos grandes de datos: Diagrama tallo - hoja El diagrama permite determinar con rapidez algunas características importantes de los datos, que no son de inmediato obvias en la presentación original de ellos. 90 Análisis Exploratorio 91 Diagrama de Tallo y hojas Construcción El diagrama de tallo y hoja es una forma de obtener una presentación visual informativa de un conjunto de datos ( formados por lo menos de dos dígitos) x1, x2, ......, xn , donde cada dato xi se dividen en dos partes: Tallo: Formado por uno o más de los dígitos principales de las observaciones, debe escogerse un número relativamente pequeño de tallos en comparación con el número de observaciones, suele trabajarse entre 5 y 20 tallos dependiendo del número de observaciones, pero es importante tener en cuenta que el número de tallos debe ser menor que el número total de datos a analizar Hoja: Formada por los dígitos restantes de los datos a analizar. Una vez elegido el conjunto de tallos, éstos se enlistan en forma creciente formando una columna, y al lado de esta ( en otra columna) se ponen todas las hojas que corresponden a los valores observados, ordenados tal y como se encuentran en el conjunto de datos. Frecuencia: Representa del número de hojas asociada con cada tallo. Análisis Exploratorio Diagrama Caja-Brazos El diagrama de caja-brazos es una presentación visual que describe características importantes de un conjunto de datos, y nos da información sobre el dato central de la distribución, la dispersión de los datos, el grado de asimetría y la identificación de observaciones que se alejan de manera anormal del resto de los datos (este tipo de datos reciben el nombre de "valores atípicos" de la distribución). Este diagrama recibe el nombre de caja-brazos porque al graficarlo, se genera dos brazos y una caja: a) El primer brazo esta formado por una línea recta que une al dato inferior con el primer cuartil, el cual es la arista inferior de la caja. Este brazo inferior representa al 25% de los datos. 92 Análisis Exploratorio 95 Diagrama de Caja Brazos 3.- Se emplean diferentes símbolos (como círculos vacíos), para identificar los dos tipos de valores atípicos Si en una distribución se detecta la existencia de valores atípicos se acostumbre indicarlos en el diagrama con asteriscos. 4.- Las observaciones que están más allá de tres veces el rango intercuartílico a partir de las aristas del rectángulo se conocen como valores atípicos extremos. El siguiente diagrama representa la ubicación de valores atípicos Análisis Exploratorio A continuación brevemente se explican los pasos para construcción del diagrama: 1.- Ordenar los datos de manera creciente 2.- Calcular: Primer cuartil Q1 ( que representa el 25% de los datos) La mediada MD ( que representa el dato central de la distribución) Tercer Cuartil Q3 ( que representa el 75% de datos) El rango intercuartílico RIC= Q3 - Q1 ( representa el 50% de los datos centrales de la distribución) Calcular valores atípicos: Inferiores: VAI= Q1 - 1.5 RIC Superiores: VAS = Q3 + 1.5 RIC 3.- Interpretación del diagrama. 96 Diagrama de Caja - Brazos Ejemplo En la siguiente gráfica se presenta el grado promedio de escolaridad de cada una de las entidades que conforman México, de acuerdo con información del INEGI. FUENTE: INEGI. Censo de Población y Vivienda 2010. 97
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved