Variables estadísticas

Terminología estadística. Datos. Variables discretas y contínuas. Muestreos aleatorios. Medidas de tendencia. Media aritmética. Dispersión. Distribución de frecuencias. Ojivas

  • Enviado por: Marce
  • Idioma: castellano
  • País: México México
  • 27 páginas

publicidad
cursos destacados
Química Orgánica
Química Orgánica
En este curso de Química Orgánica o también conocida como Química del Carbono, nos...
Ver más información

Ejercicios resueltos de Trigonometría Plana
Ejercicios resueltos de Trigonometría Plana
Serie de ejercicios resueltos de Trigonometría Plana

Este curso va ligado al curso actual de...
Ver más información


INTRODUCCIÓN

Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o cosas. Hacia el año 3000 a.C. los babilonios usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y sobre los géneros vendidos o cambiados mediante trueque. En el siglo XXXI a.C., mucho antes de construir las pirámides, los egipcios analizaban los datos de la población y la renta del país. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 a.C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para cobrar impuestos.

El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes caloringios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó la realización de un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales.

En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos o físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de “interpretación” de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.

ESTADÍSTICA, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones.

ESTADISTICA, La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar desiciones razonables basadas en tal análisis.

En sentido menos amplio, el termino estadística se usa para denotar los propios datos, o números derivados de ellos, tales como los promedios. Así se habla de estadística de empleo, de estadística de accidentes, etc.

ESTADÍSTICA; La estadística se refiere a las técnicas mediante de las cuales se recopilan, organizan y analizan datos cuantitativos.

ESTADISTICA.

La estadística esta ligada con los métodos científicos en al toma, organización, recopilación, presentación y análisis de datos, tanto como para la deducción de conclusiones como para tomar decisiones razonables de acuerdo a tales resultados.

La parte de la estadística que trata de las condiciones bajo las cuales tales inferencias son validas se llama estadística inductiva o diferencial.

La parte de la estadística que trata solamente de describir y analizar un grupo dado sin sacar conclusiones o inferencias de un grupo mayor se llama estadística descriptiva o deductiva.

En un sentido mas estricto el termino se utiliza para denotar los mismos datos o números que se derivan de ellos, como por ejemplo promedios. Así se habla de estadística de empleo, estadística de empleos, etc.

|ESTUDIO DE LA ESTADÍSTICA

La materia de estadística puede representarse en diferentes niveles de dificultad matemática y puede estar dirigida hacia aplicaciones en distintos campos de la investigación. De acuerdo con esto se han escrito muchos libros de textos sobre estadística empresarial, estadística educativa, estadística médica, estadística psicológica.

ESTADISTICA DESCRIPTIVA.

La estadística descriptiva analiza, estudia y describe a la totalidad de individuos de una población. Su finalidad es obtener información, analizarla, elaborarla y simplificarla lo necesario para que pueda ser interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El proceso que sigue la estadística descriptiva para el estudio de una cierta población consta de los siguientes pasos:

Selección de caracteres dignos de ser estudiados.

Mediante encuesta o medición, obtención del valor de cada individuo en los caracteres seleccionados.

Elaboración de tablas de frecuencias, mediante la adecuada clasificación de los individuos dentro de cada carácter.

Representación gráfica de los resultados (elaboración de gráficas estadísticas).

Obtención de parámetros estadísticos, números que sintetizan los aspectos más relevantes de una distribución estadística.

La estadística descriptiva, incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos. Estos métodos pueden ser gráficos o pueden incluir análisis mediante cálculos.

EJEMPLO: Puede Describirse y darle significado al volumen mensual de ventas de un producto durante el año pasado elaborando un diagrama de barras o una grafica lineal.

Diferentes formas de representar la estadística descriptiva.

Diagrama de barras.

Diagrama de columnas.

Diagrama de pástel.

Diagrama de burbujas.

Diagrama de cotizaciones.

Diagrama radial.

Diagrama cilindro.

Diagrama cónico.

Diagrama de anillo.

ESTADÍSTICA INFERENCIAL

La estadística descriptiva trabaja con todos los individuos de la población. La estadística inferencial, sin embargo, trabaja con muestras, subconjuntos formados por algunos individuos de la población. A partir del estudio de la muestra se pretende inferir aspectos relevantes de toda la población. Cómo se selecciona la muestra, cómo se realiza la inferencia, y qué grado de confianza se puede tener en ella son aspectos fundamentales de la estadística inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de estadística, probabilidad y matemáticas.

La inferencia estadística comprende aquellas técnicas por medio de las cuales se toman desiciones de una población estadística basadas en una muestra o en juicios de los administradores. Debido a que esas decisiones se toman en condiciones de incertidumbre, se requiere el uso e conceptos de probabilidad. Considerando que las características medidas en un muestra se denominan estadísticas maestrales, las características medidas en una población estadística, o universo, se llaman parámetros poblacionales El proceso de medir las características de todos los miembros de una población definida recibe el nombre de censo.

Una variable discreta solo puede tener valores observados en puntos aislados a lo largo de una escala. En la estadística de negocios, esa información suele presentarse a través del proceso de conteo; de ahí que los valores se expresen generalmente como números enteros. Una variable continua puede suponer un valor en cualquier punto fraccionario de un intervalo especificado. Los datos continuos se generan por el proceso de medición.

DEFINICIONES: Los diseños muéstrales son procedimientos para extraer muestras de poblaciones con el objeto de conocer las características promedio. Es interesante saber como, a través del análisis de solo una parte representativa de la población, se pueden inferir resultados válidos para el total de ella. Antes de estudiar los distintos diseños muéstrales definiremos algunos conceptos básicos.

POBLACIÓN: es un agregado de unidades individuales, compuesto de personas o cosas que se hallan en un situación determinada. Las unidades individuales se llaman unidades elementales. Definir una población es determinar sus unidades elementales de acuerdo con el interés que se tiene respecto a alguna característica de aquella.

Tanto la definición de una población como la característica por observar de sus unidades elementales dependen de la naturaleza del problema. Por ejemplo, si el problema es “Camisas para personas adultas de el Salvador”, se trata de determinar la cantidad adecuada de producción de camisas de acuerdo con las diversas medidas. La población son todas las personas adultas de el Salvador. La característica de interés son las medidas del cuello de las personas adultas en dicho país.

Una MUESTRA es una parte de la población; por ejemplo cuando se desea hacer un estudio relativo al rendimiento académico de cierta universidad, y para esto solo se toma un grupo de estudiantes de la misma. Todos los estudiantes de ella son la población y el grupo escogido constituyen la muestra. Es importante hacer notar que para hacer una investigación mediante el análisis de una muestra, esta tiene que ser necesariamente representativa. La representatividad de la muestra significa implica que cada unidad de la población debe tener igual la probabilidad de ser seleccionada. En estas condiciones se dice que la muestra es aleatoria.

El MUESTREO es el proceso de seleccionar una parte de un todo.

La MEDICIÓN es la etapa intermedia que consiste en contar, medir y formular preguntas.

Las UNIDADES DE MUESTREO son aquellos elementos o grupos de elementos que forman la base de una selección de muestras. Pueden o no ser idénticas al listado de las unidades. Cuando se dispone de un lista completa de elementos de la población, en general, es mas conveniente extraer una muestra directamente de la lista, en cuyo caso el muestreo sería el mismo que el listado de unidades.

La ESTRUCTURA DE MUESTREO esta constituido por los materiales y procedimientos utilizados para contabilizar la población cuando se dispone de una lista completa de elementos. La estructura de muestreo consistirá, en general de mapas, croquis, listas, fotografías aéreas e instrucciones sobre la forma como estos elementos deben utilizarse. Se trata básicamente del procedimiento operativo y de los materiales usados para esquematizar la población al diseñar la muestra.

DISEÑOS DE MUESTREOS ALTERNATIVOS

Los diseños de muestreo se dividen en dos grandes grupos: aleatorios y no aleatorios.

El muestreo aleatorio es un proceso de selección al azar; se denomina también muestreo probabilistico, ya que involucra las leyes de la probabilidad.

El muestreo no aleatorio es un proceso subjetivo de selección muestral, sin intervención del azar; es decir una muestra no aleatoria se selecciona de acuerdo con el juicio experto del investigador.

El muestreo aleatorio es aquel en el que cada uno de los elementos de la población de interés, o población objeto, como se le conoce, tiene una probabilidad conocida, y frecuentemente igual, de ser elegida para la muestra. A las muestras aleatorias se les denomina también muestras probabilísticas o muestras científicas. Son cuatro los principales métodos de muestreos aleatorio: aleatorio simple, estratificado, por conglomerados y sistemático.

MUESTREOS ALEATORIOS

MUESTREO ALEATORIO SIMPLE

El muestreo aleatorio simple es un procedimiento de selección por el cual todos y cada uno de los elementos de la población tienen igual probabilidad de ser incluidos en la muestra. Entonces, si toda unidad de muestreo tiene la misma probabilidad de ser escogida, se sigue que las muestras aleatorias de igual tamaño, tomadas de una población dada, tienen la misma probabilidad de ser tomadas.

Partamos, por ejemplo, de la población de tres calificaciones: 2, 4, 6. De esta población podemos tener muestras de tamaño n=2; con o sin reemplazo. Con reemplazo. Con reemplazo significa que se selecciona una unidad elemental y luego esta se regresa a la población antes de tomar la siguiente, por tanto, cada unidad puede ser seleccionada más de una vez en la misma muestra. Es sin reemplazo, cuando una vez escogida una unidad elemental, ésta ya no se regresa a la población, y por tanto, cada unidad puede aparecer sólo una vez.

Veamos el caso de muestreo con reeplazo, tomando todas las posibles muestras de n=2 que se pueden tomar de la población:2,4 y 6. El numero de muestras por tomar es Nn = 32 = 9.

Las muestras son:

2,2 2,4 2,6

4,2 4,4 4,6

6,2 5,4 6,6

Cada una de estas muestras tiene 1/9 de probabilidad de ser escogida.

¿Como escoger una muestra aleatoria simple? Uno de los métodos sencillos consiste en numerar todos los elementos de la población, escribir los números en tarjetas, fichas o bolas, poner luego en una caja o bolsa estos objetos numerados y mezclarlos completamente . Se determina entonces el tamaño n de la muestra y se sacan los objetos al azar, uno por uno, hasta tener el numero deseado.

Otro método mas técnico y confiable consiste en usar tablas de números aleatorios. En la mayor parte de los libros de estadística aparecen este tipo de tablas.

Una muestra aleatoria simple es aquella en que los elementos se escogen en forma individual y al azar de la totalidad de la población. Esta selección es similar a la que se realiza en la extracción aleatoria de números en la lotería. Si embargo en el muestreo estadístico, por lo general se utiliza un sistema computarizado de tabla de números aleatorios o un generador de números aleatorios para identificar los elementos numerados de la población que se elige para la muestra.

MUESTREO ALEATORIO ESTRATIFICADO:

El proceso consiste en dividir la población en grupos llamados estratos. Dentro de cada estrato están los elementos situados de manera más homogénea con respecto a las características en estudio. Para cada estrato se toma una submuestra mediante el procedimiento aleatorio simple, y la muestra global se obtiene uniendo las submuestra de todos los estratos.

La selección de los elementos de cada estrato puede ser proporcional o no.

El muestreo por estrato puede ser mas efectivo si se trata de poblaciones heterogéneas. Al hacer la estratificación, las clases se establecen de modo que las unidades de muestreo tiendan a ser uniformes dentro de cada clase, y las clases tiendan a ser diferentes entre si.

Si la desviación típica de la característica observada en cada estrato es menor que la de toda la población, como es lo usual, debido a la mayor uniformidad dentro del estrato, resultara que la fiabilidad aumenta para un tamaño de muestra dado, o bien la efectividad para un grado de fiabilidad.

El aumento de fiabilidad y efectividad y efectividad se puede incrementar clasificando todavía más los estratos en subestratos, si ello fuese posible. Por ejemplo, al hacer una encuesta sobre la elección de un candidato político, se pueden tomar como estratos los partidos políticos. Dado que las preferencias electorales están influidas a menudo por factores como el sexo, la edad, la profesión, la religión, etc., se podrían subdividir los estratos de acuerdo con dichos factores, Este procedimiento de doble clasificación se llama estratificación cruzada. El muestreo por estratos es una combinación de submuestras de los mismos.

El muestreo estratificado, lo primero que hace el investigador es clasificar los elementos de la población en subgrupos separados de acuerdo con una o mas características importantes. Después, se obtiene por separado una muestra aleatoria simple o sistemática de cada estrato. Puede utilizarse este tipo de muestreo para asegurar un representación proporcional de diversos subgrupos en la muestra. Además, es común que el tamaño de la muestra que se requiere para lograr determinado nivel de precisión en el muestreo estratificado sea menor que con muestre aleatorio simple, con la consiguiente reducción en los costos del muestreo.

Ejemplo: En un estudio de las actitudes de los estudiantes con respecto a las políticas de hospedaje en las instalaciones, es razonable que puede existir diferencias importantes entre los estudiantes de licenciatura y los de posgrado, y entre hombres y mujeres. Por lo tanto, debe considerarse un esquema de muestreo estratificado, escogiendo una muestra diferente en cada uno de los cuatro estratos: hombres que estudian la licenciatura, mujeres estudiantes de licenciatura, hombres graduados en posgrados, y mujeres graduados en posgrados.

MUESTREO POR CONGLOMERADO

El muestreo por conglomerados es lo contrario del muestreo por estratos. Consiste en seleccionar primero, al azar, grupos, llamados conglomerados de elementos individuales de la población, y en tomar luego todos los elementos de una submuestra de ellos dentro de cada conglomerado, para constituir así la muestra global.

Para lograr los mejores resultados con el procedimiento del muestreo anterior, las diferencias entre los conglomerados se hacen tan pequeñas como sea posible. Lo ideal seria que cada conglomerado fuera una miniatura de toda la población; así un solo conglomerado sería una muestra satisfactoria.

Con frecuencia los conglomerados se llaman unidades de muestreo primaria. Si todos los elementos o unidades elementales de los conglomerados seleccionados se incluyen en la muestra, el procedimiento se llama muestreo de una etapa. Si se saca una submuestra aleatoria de elementos de cada conglomerado seleccionado, se tiene lo que se llama muestreo en dos etapas. Si intervienen mas de dos etapas en la obtención de la muestra total se dice que es un muestreo de etapas múltiples o multietápico.

El muestreo por conglomerados se utiliza a menudo en control de calidad estadístico. Primero se seleccionan lotes o tandas de producción al azar, como conglomerados; si el muestreo es de una etapa, todas las unidades de los lotes seleccionados pueden ser comprobados; o bien se puede tomar una submuestra de cada lote para su comprobación, lo cual constituye un muestreo en dos etapas.

Ejemplo: Si un analista de la Secretaría de Trabajo necesita estudiar los salarios diarios que se pagan en un área metropolitana, seria difícil obtener una lista de todos los asalariados de la población objetivo. Sin embargo, podría obtenerse fácilmente una lista de las empresas de las región. Con esta lista el analista, puede tomar una muestra aleatoria de las empresas identificadas, que representan conglomerados de trabajadores, y obtener los salarios que estas empresas les pagan.

MUESTREO SISTEMATICO

Según este procedimiento, se obtiene una muestra tomando cada K-ésima unidad de la población, tras numerar las unidades elementales de ésta o haberlas ordenado de alguna manera. La K representa un número entero, que es aproximadamente la razón de muestreo entre el tamaño de la población N y el tamaño de la muestra n; es decir,

K = N / n

Así si la población consta de 3600 unidades y se desea tomar una muestra de tamaño n = 400, entonces la razón de muestreo

K = 3 600 / 400 = 9

Y la muestra se obtiene tomando una unidad de cada 9 de la población. Apara lograr la aleatoriedad, el procedimiento debe empezar al azar. Así, como en nuestro ejemplo K = 9, se escriben en nueve papelitos números del 1 al 9; luego se extrae uno al azar. Supongamos que salió el papelito con el número 5; ésta será la primera unidad que formará la muestra; el siguiente es 5 + k, o sea, 5 + 9 = 14; el tercero es 14 + 9 = 23, y así sucesivamente hasta completar los 400 dela muestra.

Una muestra sistemática es una muestra aleatoria en la cual se eligen los elementos de la población a intervalos uniformes, a partir de un listado ordenado, tal como elegir cada décima cuenta por cobrar para la muestra. La primera de la cuenta de las muestra se elegirá al azar (quizás utilizando una tabla de números aleatorios). Un problema especifico del muestreo sistemático es la existencia de cualquier factor periódico o cíclico en la lista de la población que pudiera conducir a un error sistemático en los resultados muéstrales.

MEDIA ARITMETICA.

La media aritmética, o promedio aritmético se define como la división de la suma de todos los valores entre el número de valores.

En estadística es normal representar una medida descriptiva de una población o parámetro povblaciona, mediante las letras griegas, en tanto que se utilizan letras romanas para las medidas descriptivas de muestras o de estadísticas muestrales. Así, la media aritmética para una población de valores se representa mediante el símbolo  (que se pronuncia “mu”), en tanto que la media aritmética de una muestra de valores se presenta mediante el símbolo × (que se lee “x barra”) las formulas para la media de una población y de una muestra son:

= "



= "

n

La media aritmética o media de un conjunto de N números X1, X2, X3 …,XN se representa por:

X = X1, X2, X3 …….,XN

N

MEDIANA

La mediana de un grupo de datos es el valor del dato que ocupa un lugar de cuando se les agrupa a todos en orden ascendente o descendente. Para un grupo con un número par de elementos, se supone que la mediana se encuentra a la mitad entre los dos valores adyacentes al centro. Cuando el conjunto de datos contiene un número grande de valores resulta útil la sig. Formula para determinar la posición de la mediana en el conjunto ordenado:

Med= [(n/2)+(1/2)]

La mediana de una colección de datos ordenados en orden de magnitud es el valor medio o la media aritmética de los dos valores medios.

Ejemplo 1: Sean los números 3,4,5,6,7,8,9,10 que tienen de mediana 6.

Ejemplo 2: Sean los números 5,5,7,9,11,12,15,18; su mediana será (9 + 11) / 2 = 10

MODA

Es el valor que se presenta con mayor frecuencias en un conjunto de datos (es considerado moda el valor que se repite más de tres veces). A una distribución que tiene una sola moda se le denomina unimodal. Para un conjunto de datos poco numerosos en los que no repite ningún valor no existe moda. Cuando dos valores no adyacentes tienen frecuecias máximas similares se dice que la distribución es bimodal. A las distribuciones de mediciones que tienen varias modas se les denomina multimodales.

Ejemplo 1: El sistema 2,2,5,7,9,9,9,10,10,11,12,18 tiene de moda el 9.

VARIANZA

La varianza es similar a la desviación media porque se basa en la diferencia entre cada uno de los valores del conjunto de datos y la media del grupo. La diferencia consiste en que, antes de sumarlas, se eleva al cuadrado cada una de las diferencias. Para una población, se representa la varianza mediante  (x) o, en forma mas tipica, mediante la letra 2 (que se lee “sigma cuadrada”); la formula es:

LA DESVIACIÓN ESTANDAR: la desviación estandar es la medida de dispersión mas importante , ya que se utiliza junto con varios de los metodos de inferencia estadística que se analiza. En parte por esta razon , se utiliza con mayor frecuencia la raiz cuadrada de la varianza representada mediante la letra S y se denomina desviación estandar . la formula es:

RANGO.

El rango de un conjunto de numeros es la diferencia entre el mayor y el menor de todos los datos.

Ejemplo: El rango de los numeros 2,3,3,3,5,5,8,10,12 es 12 - 2 = 10 A veces el rango el rango se da por la simple anotación de los numeros mayor y menor. En el ejemplo anterior esto seria indicado como

2 a 12 o 12 - 2.

COEFICIENTE DE VARIACION

La dispersión o variación real determinada por la desviación típica u otra medida de dispersión se llama dispersión absoluta. Sin embargo, una dispersión o variación de 10 pulgadas en la medida de una distancia de 1.000 pies tiene un efecto totalmente distinto al que tendría la misma variación de 10 pulgadas en una distancia de 20 pies. Una medida de este efecto viene dad por la dispersión relativa definida por:

Desviación absoluta

Desviación relativa = ---------------------------

Promedio

Si la dispersión absoluta es al desviación típica s y el promedio es al media X, la dispersión relativa se conoce por coeficiente de variación o coeficiente de variación dado por:

s

Coeficiente de Variación = V = -----

X

Y esta generalmente expresado como un porcentaje. También se tienen otras posibilidades para esta

INTERVALOS DE CLASE

Un símbolo que define una clase, tal como 60 - 62 se conoce como intervalo de clase. Los numeros extremos 60 y 62 son los limites de clase; el numero menor 60 es el limite inferior de la clase y el mayor es el limite superior. Los términos clase e intervalo de clase se utilizan a menudo indistintamente, aunque el intervalo de clase es realmente un símbolo para la clase.

Un intervalo de clase que, al menso teóricamente, no tiene limite superior o inferior, se cono ce como intervalo de clase abierto. Por ejemplo, al referirse a la edad de grupos de individuos, el intervalo de clase, << mayores de 65 años >> es un intervalo de clase abierto.

El tamaño o anchura del intervalo de clase es la diferencia entre los limites reales de clase que lo forman y se conoce como anchura de clase, tamaño de clase o longitud de clase. Si todos los intervalos de clase de una distribución de frecuencias tienen igual anchura, esta anchura común se representa por c. En tal caso, “c” es igual a la diferencia entre dos sucesivos limites de clase inferiores o superiores.

FRECUENCIA RELATIVA.

La frecuencia relativa de una clase es la frecuencia de la clase dividida por el total de frecuencias de todas las clases y se expresa generalmente como porcentaje. La suma de las frecuencias relativas de todas las clases es evidente 1 o 100% .

Si las frecuencias en una tabla de frecuencias se sustituyen por las correspondientes frecuencias relativas, la tabla resultante se llama distribucion de frecuencias relativas, distribucion porcentual o tabla de frecuencias relativas.

Las representaciones gráficas de distribuciones de frecuencia relativa pueden obtenerse del histograma o del polígono de frecuencia, sin mas que cambiar la escala vertical de frecuencia a frecuencia relativa, conservándose el mismo diagrama. Los gráficos resultan se llaman histogramas de frecuencias relativas o o histogramas porcentuales y polígonos de frecuencia relativa o polígonos porcentuales respectivamente.

FRECUENCIA ACUMULADA.

La frecuencia total de todos los valores menores que el limite real superior de clase de un intevalo de clase dado se conoce como frecuencia acumulada hasta ese intervalo de clase inclusive. Por ejemplo, la frecuencia acumulada hasta el intervalo de clase 66 - 68 es 5 + 18 + 42 = 65, significando que 65 datos tienen determinadas características.

Una tabla que represente las frecuencias acumuladas se llama distribución de frecuencias acumuladas o brevemente distribucion de frecuencias acumuladas. Un gráfico que muestre las frecuencias acumuladas menores que cualquier limite real superior de clase trazado sobre los limites reales superiores de clase se llama polígono de frecuencia acumulada u ojiva.

En algunos casos es preferible considerar una distribución de frecuencias acumuladas de todos los valores mayores o iguales al limite real inferior de clase de cada intervalo de clase. Esta se llama a veces distribución acumulada << o más >>, mientras que la considerada anteriormente es la distribucion acumulada << menor que >>. Las correspondientes ojivas se llaman << o mas >> y << menor que>>. Siempre que nos refiramos a un adistrbucion acumulada de ojiva sin especificar se considerara que son del tipo menor.

MARCA DE CLASE

La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los limites inferior y superior de la clase y dividiendo por 2. Así, la marca de clase del intervalo 60 - 62 es

(60 + 62)/2 = 61. LA marca de clase se llama también punto medio de la clase.

Para análisis matemáticos posteriores, todas las observaciones pertenecientes a un intervalo de clase dado se suponen coincidentes con la marca de clase. Asi, todas los datos del intervalo de clase

60 -62 se consideraran como de

RECOPILACIÓN DE DATOS

Una fila de datos, consiste en datos recogidos que no han sido organizados numéricamente, por ejemplo, estatura de 100 estudiantes por orden alfabético.

ORDENACIONES

Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. La diferencia entre el mayor y el menor se llama rango de ese conjunto de datos. Así la mayor altura de entre los 100 estudiantes era de 74 in y la menor de 60 in, el rango es 74 - 60 = 14 in.

DISTRIBUCIÓN DE FRECUENCIAS

Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de clase. Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase, se llama distribución de frecuencias (o tabla de frecuencias). La tabla 2.1 es una distribución de frecuencias de alturas (con presición de 1 pulgada) de 100 estudiantes varones de la universidad XYZ.

Tabla 2.1 Alturas de 100 estudiantes

Varones de la universidad XYZ.

Total 100

La primera clase (o categoría ), por ejemplo, consta de las alturas entre 60 y 62 in, y se indica por el rango 60-62. como hay 5 estudiantes en esta clase, la correspondiente frecuencia frecuencia de clase es 5.

Los datos así organizados en clases como en la anterior distribución de frecuencias se llaman datos agrupados. Aunque el proceso de agrupamiento destruye en general detalles de los datos iniciales, es muy ventajosa la visión nítida obtenida y las relaciones evidentes que saca a la luz.

INTERVALO DE CLASE Y LIMITES DE CLASE

El símbolo que define una clase, como el 60-62 en la tabla 2.1, se llama intervalo de clase. Los números extremos, 60 y 62, se llaman límite inferior de clase (60) y límite superior de clase (62). Con frecuencia se intercambian los términos clase e intervalo de clase es un símbolo para la clase.

Un intervalo de clase que, al menos en teoria, carece de límite superior o inferior indicado, se llama intervalo de clase abierto, por ejemplo refiriéndonos a edades de personas, la clase 65 años o más es un intervalo de clase abierto.

FRONTERAS DE CLASE

Si se dan alturas con presición de 1 pulgada, el intervalo de clase 60 - 62 incluye teóricamente todas las medidas desde 59.5000 a 62.5000. in. Estos números indicados más brevemente por los números exactos 59.5 y 62.5, se llaman fronteras de clase o verdaderos límites de clase; el menor (59.5) es la frontera inferior y el mayor (62.5) la frontera superior.

En la práctica, las fronteras de clase se obtienen promediando el límite superior de una clase con el inferior de la siguiente.

A veces se usan las fronteras de clase como símbolos para la clase. Así las clases de la primera columna de la tabla 2.1 se pueden indicar por 59.5 - 62.5, 62.5 - 65.5, etc.para evitar ambigüedad en tal notación, las fronteras no deven coincidir con valores realmente medidos. De modo que si una observación diera 62.5, no seria posible decidir si pertenece al intervalo de clase 59.5 -62.5 o al 62.5- 65.5.

TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE

El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de la superior e inferior. Si todos los intervalos de clase de una distribución de frecuencias tienen la misma anchura, la denotaremos por c. En tal caso c es igual a la diferencia entre los dos límites inferiores (o superiores) de clases sucesivas. Para los datos de la tabla 2.1, por ejemplo la anchura del intervalo de clase es c = 62.5 -59.5 = 65.5 - 62.5 =3.

MARCA DE CLASE

La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los límites inferior y superior de clase. Así que las marcas de clase del intervalo 60 - 62 es (60+62)/2 = 61. La marca de clase tambien se denomina punto medio de clase.

A efectos de análisis subsiguientes, todas las observaciones pertenecientes a un mismo intervalo de clase se supone que coinciden con la marca de clase. De manera que todas las alturas en el intervalo de clase 60 - 62 in se considerarán de 61 in.

REGLAS GENERALES PARA FORMAR DISTRIBUCIONES DE FRECUENCIAS.

  • Determinar el mayor y el menor de todos los datos, hallando así el rango (diferencias entre ambos).

  • Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Si ello no es factible, usar intervalos de clase de distintos tamaños o intervalos de clase abiertos ( vease problema 2.12 ). Se suelen tomar entre 5 y 20 intervalos de clase, según los datos. Los intervalos de clase se eligen tambien de modo tal que las marcas de clase (o puntos medios ) coincidan con los datos realmente observados. Ello tiende a disminuir el llamado error de agrupamiento que se produce en análisis ulteriores. No obstante, las fronteras de clase no debieran coincidir con datos realmente observados.

  • Determinar el número de observaciones que caen dentro de cada intervalo de clase; esto es hallar las frecuencias de clase. Esto se logra mejor con una hoja de recuentos (véase prob. 2.8).

  • HISTOGRAMA Y POLÍGONOS DE FRECUENCIAS

    Los histogramas de frecuencias y los polígonos de frecuencias son dos representaciones gráficas de las distribuciones de frecuencias.

  • un histograma o histograma de frecuencias, consiste en un conjunto de rectángulos con: (a) base en el eje de X horizontal, centros de las marcas de clase y longitudes iguales a los tamaños de los intervalos de clase y (b) áreas proporcionales a las frecuencias de clase.

  • Si los intervalos de clase tienen todos la misma anchura, las alturas de los rectángulos son proporcionales a las frecuencias de clase, y entonces es costumbre tomar las alturas iguales a las frecuencias de clase. En caso contrario, deben ajustarse las alturas (véase problema 2.13).

    40-

    30-

    20-

    P R

    10- Q S

    | | | | | | |

    58 61 64 67 70 73 76

    altura (pulgadas )

    figura 2.1

  • un polígono de frecuencias es un gráfico de trozos de la frecuencia de clase con relación a la marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos del histograma.

  • Histograma y polígono de frecuencias correspondientes a la distribución de frecuencias de alturas en la tabla 2.1 se indican sobre los mismos ejes en la figura 2.1 suelen añadirse las longitudes PQ y RS a las marcas de clase extremas como asociadas a una frecuencia de clase cero.

    En tal caso, la suma de las areas de los rectángulos del histograma es igual al área total limitada por el polígono de frecuencias y el eje x (véase Prob. 2.11).

    DISTRIBUCIONES DE FRECUENCIAS RELATIVAS

    La frecuencia relativa de una clase es su referencia dividida por la frecuencia total de todas las clases y se expresa generalmente como un porcentaje. Por ejemplo, la frecuencia relativa de la clase 66-68 en la tabla 2.1 es 42/100 = 42%. La suma de las frecuencias relativas de todas las clases da obviamente 1, o sea 100 por 100.

    Si se sustituyen las frecuencias de la tabla 2.1 por las correspondientes frecuencias relativas, la tabla resultante se llama una distribución de frecuencias relativas, distribución de porcentajes o tablas de frecuencias relativas.

    La representación gráfica de distribuciones de frecuencias relativs se puede obtener del histograma o del polígono de frecuencias sin más que cambiar la escala vertical de frecuencias a frecuencias relativas, manteniendo exactamente el mismo diagrama. Los gráficos resultantes se llaman histograma de frecuencias relativas (o histograma de porcentajes) y polígonos de frecuencias relativas (o polígono de porcentajes), respectivamente.

    DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS

    La frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo de clase dado se llama frecuencia acumulada hasta ese intervalo de clase inclusive. Por ejemplo, la frecuencia acumulada hasta el intervalo de clase 66-68 en la tabla 2.1 es 5 +18 + 42 = 65, lo que significa que 65 estudiantes tienen alturas por debajo de 68.5 in.

    Una tabla que presente tales frecuencias acumuladas se llama una distribución de frecuencias acumuladas, tabla de frecuencias acumuladas, o brevemente una distribución acumulada y se muestra en la tabla 2.2 para la distribución de alturas de la tabla 2.1.

    100 -

    • -

    • -

    • -

    20 -

    | | | | | |

    59.5 62.5 65.5 68.5 71.5 74.5

    Altura (pulgadas)

    Figura 2.2.

    Un gráfico que recoja las frecuencias acumuladas por debajo de cualquiera de las fronteras de clase superiores respecto de dicha frontera se llama un polígono de frecuencias acumuladas u ojiva, y se ilustra en la fig. 2.2 para las alturas de estudiantes de la Tabla 2.1.

    A ciertos efectos, es deseable considerar una distribución de frecuencias acumuladas de todos los valores mayores o iguales que la frontera de clase inferior de cada intervalo de clase. Como eso se hace considerar alturas de 59.5 in o más, de 62.5 in o más, etc., se le suele llamar una distribución acumulada “o más “, mientras que la antes considerada es una distribución acumulada “menor que”.

    Es fácil deducir una de otra (véase Prob. 2.15). las correspondientes ojivas se conocen con los mismos apodos. Siempre que nos refiramos a distribuciones acumuladas u ojivas sín más, estaremos hablando del caso “menor que”.

    DISTRIBUCIONES DE FRECUENCIAS RELATIVAS Y OJIVAS DE PORCENTAJES

    La frecuencia acumuladad relativa o frecuencia acumulada en porcentajes, es la frecuencia acumulada dividida por la frecuencia acumulada relativa de alturas menores que 68.5 in es 65/100 =65% lo que significa que el 65% de los estudiantes mide menos de 68.5 in.

    Si se usan frecuencias acumuladas relativas en la tabla 2.2 y en la Figura 2.2en vez frecuencias acumuladas, los resultados se llaman distribuciones de frecuencias acumuladas relativas (o distribuciones acumuladas en porcentajes) y polígonos de frecuencias acumuladas relativas (u ojivas de porcentajes), respectivamente.

    CURVAS DE FRECUENCIA Y OJIVAS SUAVIZADAS

    Los datos recogidos pueden considerarse usualmente como pertenecientes a una muestra de una población grande. Ya que son posibles muchas observaciones sobre esa población, es teóricamente posible (para datos continuos) escoger intervalos de clase muy pequeños y tener todavía números razonables de observaciones en cada clase. Así que cabe esperar que el polígono de frecuencias o el polígono frecuencias relativas para una gran población tenga pequeños segmentos que aparezca como casi una curva continua, a las que nos referiremos como curva de frecuencias o curva de frecuencias relativas, respectivamente.

    Es sensato esperar que dichas curvas teóricas sean aproximables suavizando los polígonos de frecuencias o los polígonos de frecuencias relativas de la muestra, tanto mejor la aproximación cuanto mayor sea el tamaño de la muestra. Por esa razón, una curva de frecuencias se cita a veces como un polígono de frecuencias suavizado.

    De forma análoga, se obtienen ojivas suavizadas de los polígonos de frecuencias acumuladas u ojivas. Suele ser más fácil suavizar una ojiva que un polígono de frecuencias (véase Prob. 2.18).

    Son edades tomadas de los alumnos de la facultad de contaduría.

    17,18,18,18,18,19,19,19,19,20,20,20,20,20,20,20,20,20,21,21,21,21,21,21,21,21,21,

    21,22,22,22,22,22,22,23,23,25,25,25,26,26,26,26,27,28,28,29,29,29,29,31,31,31,31 32,32,32,32,33,33,33,33,37,37,39,40,40,40,41

    'Variables estadísticas'
    "i=

    n= 73

    RANGO: (dato mayor - dato menor)

    41-17=24

    MEDIANA: 25

    MODA: 18,19,20,21,22,25,26,28,29,31,32,33,40.

    'Variables estadísticas'
    VARIANZA S2 =43.80793303

    DIVISION ESTANDAR S = 6.618756154

    COEFICIENTE DE VARIACIÓN

    C.V= 26.99274547

    24/5= 4.5

    4.5 se aumenta para que acomplete el intervalo de clase a 5.

    (5)(5) =25+16.5 = 41.5

    TABLA DE FRECUENCIA

    INTERVALO

    F

    FR

    FRA

    16.5 - 21.5

    28

    .38

    .28

    28%

    21.5 - 26.5

    16

    .21

    .49

    21%

    26.5 - 31.5

    12

    .16

    .759

    16%

    31.5 - 36.5

    10

    .13

    .889

    13%

    36.5 - 41.5

    7

    .09

    .979

    9%

    TOTAL

    73

    1

    100%

    DISTRIBUCIÓN DE FRECUENCIA RELATIVA

    'Variables estadísticas'


    Altura Numeros de

    (in) estudiantes

    60 - 62 5

    63 - 65 18

    66 - 68 42

    69 - 71 27

    72 - 74 8

    Altura Números de

    (in) estudiantes

    Menor que 59.5 0

    Menor que 62.5 5

    Menor que 65.5 23

    Menor que 68.5 65

    Menor que 71.5 92

    Menor que 74.5 100

    'Variables estadísticas'

    'Variables estadísticas'