Professional Documents
Culture Documents
Tabla 01
Regla empírica para determinar el número de clases en un Histograma
Número de observaciones en un conjunto de datos Número de Clases
menos de 25 5ó6
de 25 a 50 De 7 a 14
más de 50 De 15 a 20
Propuesta por Herbert Sturges en 1926, es una regla práctica acerca del número de clases que
deben considerar al elaborarse un histograma.
Este número viene dado por la siguiente expresión:
( )
( )
La frontera de clase más baja (o primera) deberá estar situada por debajo de la medición más
pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda quedar
exactamente en la frontera de una clase.
Para el caso de los 25 datos de la tabla 01 se escoge 7 como número de clases.
Redondearemos esta anchura hacia arriba y utilizaremos una anchura de clase de 0,7.
NOTA:
Observe lo siguiente, el dato mayor debe estar contenido en el último intervalo de clases:
Paso 05: Determinar el resto de intervalo
SI se comienza por 0,015 al mismo hay que agregarle la anchura de clase, que en nuestro caso
es de 7.
Por ejemplo la Frecuencia Relativa (FR) de la primera y segunda clase vendrá dada por:
Tabla 2.4
Intervalo de Clase Frecuencia Frecuencia
Clase
de clase de clase Relativa
1 0,0150,715 5 0.20
2 0,7151,415 9 0,36
3 1,4152,115 4 0,16
4 2,1152,815 3 0,12
5 2,8153,515 1 0,04
6 3,5154,215 2 0,08
7 4,2154,915 1 0,04
∑ 25 ∑ 1
histplot
La instrucción “histoplot” en Scilab se encarga de graficar los datos en forma de histograma.
La secuencia de llamada es la siguiente:
[cf, ind] = histplot(n, data [,normalization] [,polygon], <opt_args>)
[cf, ind] = histplot(x, data [,normalization] [,polygon], <opt_args>)
donde:
n = Número positivo entero (Número de Clases).
x = Vector de incremento que define las clases (x debe ser de al menos 2 componentes)
data = vector (datos a ser analizados)
normalization = una variable booleana (%t = True (valor por defecto) o %f = False)
polygon = una variable booleana (%t = True o %f = False (valor por defecto))
<opt_args> = Esta representa una serie de proposiciones key1=value1,key2=value2 ,... donde
key1, key2,... puede ser cualquier parámetro opcional de la instrucción “plot2d”
(style,strf,leg,rect,nax, logflag,frameflag, axesflag ).
cf = este parámetro es un vector cuyos elementos representan el número de datos que hay en
cada clase (es decir la frecuencia de Clases).
ind = este parámetro es un vector cuyos elementos indica cuantas veces se repiten los datos por
cada clase.
Esta función traza un histograma del vector de datos utilizando las clases de . Cuando se
proporciona el número n de clases en lugar de , las clases se eligen igualmente espaciados y
( ) ( ) ( ) ( ) ( ) ( )
con
( ( ) ( ))
La amplitud de Clase (No Normalizada) vendrá dada por el valor de , esto sucede cuando la
normalización esta desactivada (normalization = %f)
La amplitud de Clase (Normalizada) vendrá dada por:
( )
( ( ) ( ))
donde
( ) ( ) y ( ) ( )
Cualquier parámetro (opcional) se puede utilizar los parámetros usados en plot2d; por ejemplo,
para trazar un histograma con el número del color 2 (azul si se utiliza mapa de colores std).
Si se quiere restringir la trama dentro del rectángulo [-3,3] x [0,0.5], es posible utilizar
histplot (n, datos, el style= 2, rect = [- 3,0,3,0.5]).
Para representar un polígono de frecuencias el cual consiste en un gráfico de línea que se
obtendría uniendo todos los puntos medios de la parte superior de los contenedores de un
histograma. Por lo tanto podemos utilizar histplot función para trazar un gráfico de frecuencias
polígono. El argumento opcional para polígono conecta el punto medio de la parte superior de
cada barra de un histograma con líneas rectas.
Si polígono=%t tendremos un histograma con la carta polígono de frecuencias (%t representa
True (verdadero) caso contrario (%f) False (Falso)).
histplot (n, datos, el style = 2, rect = [- 3,0,3,0.5], polígono =% t ).
Del ejemplo que hemos estado trabajando y utilizando este comando:
( )
( )
Sesgada (Skewed)
Si la Media > Mediana indica que la distribución esta sesgada hacia derecha o sesgada
positivamente, si por el contrario Media < Mediana se dice que la la distribución esta
sesgada hacia izquierda o sesgada negativamente.
∑
̅
se tiene que:
∑ ( ) ∑ ( ) ∑ ( ) ∑ ( ) ∑ ( )
̅
∑
̅ ( )
(∑ )
( )
donde
Frontera inferior de la clase que contiene a la mediana.
(∑ ) Suma de frecuencias de las clases inferiores a la clase de la Mediana.
N= Número de Datos, es decir la frecuencia total.
fmediana= frecuencia de la clase mediana.
c = tamaño del intervalo de clase de la mediana.
La Moda es el valor que ocurre con más frecuencia; es decir el valor que más se repite. La moda
puede no existir e incluso no ser única.
( )
1. Datos sueltos.
Son los datos recolectados que no han sido organizados numéricamente.
2. Ordenación.
Es el procedimiento de ordenar los datos numéricos en forma creciente o decreciente.
3. Datos Ordenados. Son los datos que han sido ordenados en forma creciente o decreciente..
4. Clases o categorías.
Es la clasificación de grandes cantidades de datos agrupados bajo ciertas características
definidas como categorías o clase.
5. Frecuencia de Clases.
Es el número de datos o individuos que pertenecen a una Clase o Categoría.
6. Tabla de Frecuencia
Es una disposición tabular de los datos por clase, con su correspondiente frecuencia de
clases.
7. Tabla de Frecuencia Relativas
Es una Tabla de frecuencia que expresa la frecuencia de cada clases en forma relativa, es
decir su frecuencia de clases dividida entre la frecuencia total de clases y expresada
generalmente como porcentaje.
8. Datos Agrupados.
Son datos clasificados por clase, distribuidos por frecuencias.
9. Intervalo de clase.
Son los valores extremos de cada clase.
10. Intervalo de clase inferior.
Es el valor extremo inferior de la clase.
11. Intervalo de clase Superior.
Es el valor extremo superior de la clase.
12. Intervalo de clase abierto.
Es una clase que no posee límite de clase inferior o superior, ejemplo “21 años o más”.
13. Frontera de Clases
La frontera de clases va a depender de la exactitud de la medida, por ejemplo si el intervalo
de clases es de (6062) mm y los datos recogidos tienen una exactitud de 1 mm, entonces
la frontera de clase inferior estará dado por:
El valor del histograma radica en su capacidad para mostrar cómo se distribuyen los
datos en un rango. ¿Están agrupados o dispersos? ¿El histograma tiene una forma
única o parece ser no informativo? Si el histograma tiene una forma única, ¿hay una
distribución de probabilidad adecuada para ello?. Por ejemplo, al analizar los resultados
de una prueba de vida útil de confiabilidad, es de esperar que los datos muestren una
tendencia central, posiblemente con una cola larga que salga en el tiempo o en las
actuaciones. Es útil ajustar una distribución a los datos, ya que esto le permitirá estimar
fallas tempranas, una preocupación por la satisfacción de ambos clientes y los gastos
de garantía del productor.