You are on page 1of 12

Pasos a seguir para construir un histograma

por Ing. Balebona J.


Paso 01: Calcular el intervalo de los datos.

el intervalo de datos de la tabla 2.3 es:

Tabla 2.3 Datos Sueltos Tabla 2.3 Datos Ordenados


1.17 1.61 1.16 1.38 3.53 0.02 0.15 0.19 0.47 0.71
1.23 3.76 1.94 0.96 4.75 0.75 0.82 0.92 0.96 1.16
0.15 2.41 0.71 0.02 1.59 1.17 1.23 1.38 1.40 1.59
0.19 0.82 0.47 2.16 2.01 1.61 1.94 2.01 2.16 2.41
0.92 0.75 2.59 3.07 1.40 2.59 3.07 3.53 3.76 4.75

Paso 02: Seleccionar el número de Clases


Dividir entre 5 y 20 clases de igual anchura. El número de clases es arbitrario, pero se obtiene
una mejor descripción gráfica si se utiliza pocas clases cuando el número de datos es pequeño y
un mayor número de clases cuando el conjunto de datos es grande, podemos seguir la siguiente
regla empírica:

Tabla 01
Regla empírica para determinar el número de clases en un Histograma
Número de observaciones en un conjunto de datos Número de Clases
menos de 25 5ó6
de 25 a 50 De 7 a 14
más de 50 De 15 a 20

Otra forma de seleccionar el número de clases en un histograma es la famosa


Regla de Sturges.

Propuesta por Herbert Sturges en 1926, es una regla práctica acerca del número de clases que
deben considerar al elaborarse un histograma.
Este número viene dado por la siguiente expresión:

( )

Que puede pasarse a logaritmo base 10 de la siguiente forma:

( )

El valor de número de clases es común redondearlo al entero más cercano.

Ing. Balebona Jenry Página 1 de 12


The problem with Sturges’ rule for constructing histograms por Rob J Hyndman
http://robjhyndman.com/papers/sturges.pdf

La frontera de clase más baja (o primera) deberá estar situada por debajo de la medición más
pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda quedar
exactamente en la frontera de una clase.
Para el caso de los 25 datos de la tabla 01 se escoge 7 como número de clases.

Paso 03: Determinar la anchura de Clase.


La anchura de cada clase vendrá dada por:

Redondearemos esta anchura hacia arriba y utilizaremos una anchura de clase de 0,7.

Paso 04: Determinar por donde comenzar con la primera clase.


Si observamos los datos de la tabla 2.3 los mismos presentan una precisión de centésimas, es
decir, dos decimales siendo el número menor en este ejemplo de 0,02 el cual debe estar
contenido en la primera clase por supuesto, para ello deberemos darle una holgura al intervalo
de clase para que contenga al mismo.
es decir el instrumento de medida con que fue tomado los datos tiene dos centésimas de
apreciación siendo la mínima expresión que se puede tener con dos décimas el 0,01, por tanto
estas medidas tendrán una incertidumbre debidas al error de apreciación de 0,01/2=0,005

NOTA:
Observe lo siguiente, el dato mayor debe estar contenido en el último intervalo de clases:


Paso 05: Determinar el resto de intervalo
SI se comienza por 0,015 al mismo hay que agregarle la anchura de clase, que en nuestro caso
es de 7.

y el resto se procede de igual manera, quedando la siguiente distribución:

Ing. Balebona Jenry Página 2 de 12


Clase Intervalo de Clase
1 0,0150,715
2 0,7151,415
3 1,4152,115
4 2,1152,815
5 2,8153,515
6 3,5154,215
7 4,2154,915

Paso 06: Determinar la frecuencia de clase para cada intervalo de clase.


Para determinar la frecuencia de clase para cada intervalo de clase se procede a contar el
número de observaciones, de los datos de la tabla 2.3, que caen en cada clase. (Ver Tabla 2.4)
Paso 07: Calcular la frecuencia de cada clase.

Por ejemplo la Frecuencia Relativa (FR) de la primera y segunda clase vendrá dada por:

el resto puede observarlos en la tabla 2.4 siguiente.

Tabla 2.4
Intervalo de Clase Frecuencia Frecuencia
Clase
de clase de clase Relativa
1 0,0150,715 5 0.20
2 0,7151,415 9 0,36
3 1,4152,115 4 0,16
4 2,1152,815 3 0,12
5 2,8153,515 1 0,04
6 3,5154,215 2 0,08
7 4,2154,915 1 0,04
∑ 25 ∑ 1

Ing. Balebona Jenry Página 3 de 12


Ing. Balebona Jenry Página 4 de 12
Criterio que utiliza Scilab para la realización de un histograma.

histplot
La instrucción “histoplot” en Scilab se encarga de graficar los datos en forma de histograma.
La secuencia de llamada es la siguiente:
[cf, ind] = histplot(n, data [,normalization] [,polygon], <opt_args>)
[cf, ind] = histplot(x, data [,normalization] [,polygon], <opt_args>)
donde:
n = Número positivo entero (Número de Clases).
x = Vector de incremento que define las clases (x debe ser de al menos 2 componentes)
data = vector (datos a ser analizados)
normalization = una variable booleana (%t = True (valor por defecto) o %f = False)
polygon = una variable booleana (%t = True o %f = False (valor por defecto))
<opt_args> = Esta representa una serie de proposiciones key1=value1,key2=value2 ,... donde
key1, key2,... puede ser cualquier parámetro opcional de la instrucción “plot2d”
(style,strf,leg,rect,nax, logflag,frameflag, axesflag ).
cf = este parámetro es un vector cuyos elementos representan el número de datos que hay en
cada clase (es decir la frecuencia de Clases).
ind = este parámetro es un vector cuyos elementos indica cuantas veces se repiten los datos por
cada clase.

Esta función traza un histograma del vector de datos utilizando las clases de . Cuando se
proporciona el número n de clases en lugar de , las clases se eligen igualmente espaciados y

( ) ( ) ( ) ( ) ( ) ( )

con
( ( ) ( ))

Las clases están definidas por ( ) ( ) y () ( ) para . Observando


Nmax el número total de datos (Nmax=longitud(datos)) y el número de componentes de
datos que caen en .

La amplitud de Clase (No Normalizada) vendrá dada por el valor de , esto sucede cuando la
normalización esta desactivada (normalization = %f)
La amplitud de Clase (Normalizada) vendrá dada por:

( )
( ( ) ( ))

Ing. Balebona Jenry Página 5 de 12


esto sucede cuando la normalización esta activada (normalization = %t)
Cuando se produce la normalización, es decir ( )
cuando normalization = %t, en el ∫ ( )
histograma se puede verificar que: ( )

donde
( ) ( ) y ( ) ( )

Cualquier parámetro (opcional) se puede utilizar los parámetros usados en plot2d; por ejemplo,
para trazar un histograma con el número del color 2 (azul si se utiliza mapa de colores std).
Si se quiere restringir la trama dentro del rectángulo [-3,3] x [0,0.5], es posible utilizar
histplot (n, datos, el style= 2, rect = [- 3,0,3,0.5]).
Para representar un polígono de frecuencias el cual consiste en un gráfico de línea que se
obtendría uniendo todos los puntos medios de la parte superior de los contenedores de un
histograma. Por lo tanto podemos utilizar histplot función para trazar un gráfico de frecuencias
polígono. El argumento opcional para polígono conecta el punto medio de la parte superior de
cada barra de un histograma con líneas rectas.
Si polígono=%t tendremos un histograma con la carta polígono de frecuencias (%t representa
True (verdadero) caso contrario (%f) False (Falso)).
histplot (n, datos, el style = 2, rect = [- 3,0,3,0.5], polígono =% t ).
Del ejemplo que hemos estado trabajando y utilizando este comando:

histplot(Num_Clases,x2, normalization=%f, style=1, polygon=%t, rect = [- 0.5,0.5,0,9.5])

se obtiene la siguiente gráfica:

Ing. Balebona Jenry Página 6 de 12


A continuación ejemplo en forma de Script, en Scilab, que podéis utilizar.
Presta cuidado en el momento de copiar de este PDF y pegar en el Editor de Scilab
(SciNotes), ya que algunos signos de puntuación, como apostrofes y comillas, no se
transfieren en la copia correctamente.
El archivo plano extensión “.sce” (Script) será suministrado con esta guía.

// Copyright (C) {$2016} - Corporation - Ing. Jenry Balebona


// About your license if you have any Date of creation: 07/10/2016
//Programa No. 01 (Histograma)
clc; // Limpia la consola
clf; // Borra gráficas
Num_Clases=7; //Número de Intervalos de Clases
Num_Muestras=25; //Número de Muestras de la Data
//********************Lee Archivo de Datos******************
fd=mopen('C:\Estadistica01\Scilab\Tabla2_3.txt','r') ; //Lectura de datos de archivo texto
Muestra_txt=mgetl(fd,Num_Muestras) ; // Datos en forma de texto
//**********************Ordena los Datos*********************
Muestra_num = strtod(Muestra_txt) ; //Convierte texto en número
x2=gsort(Muestra_num,'g','i') ; //Ordena los Número de Muestras
Num_Muestras=max(size(x2)) ; //Verificamos Número de Muestras
//*************************Calculos****************************
Media=mean(Muestra_num) ; //Calcula la media
Mediana=median(Muestra_num) ; //Calcula la mediana
Desv_Estandar=stdev(Muestra_num) ; //Calcula la desviación estándar
N=size(Muestra_num) ; //Calcula el tamaño de la muestra
xClases=[0.015,00.715,1.415,2.115,2.815,3.515,4.215,4.915]; //Intervalos de Clase
//*************************Gráficas*****************************
[cf, ind] =histplot(xClases,x2, normalization=%f,style=2,polygon=%f)
xtitle('Histograma de frecuencias', 'Eje X', 'Eje Y' ) ;
xgrid()
//*************************Escritura*****************************
write(%io(2),Media,'(''Media =|'',f10.7,''|'')') ;
write(%io(2),Mediana,'(''Mediana =|'',f10.7,''|'')') ;
write(%io(2),Desv_Estandar,'(''Desviación Estándar =|'',f10.7,''|'')') ; ;
write(%io(2),max(N),'(''Número de Datos =|'',f10.0,''|'')') ;
mclose all ; // cierre de archivos abiertos que fueron leídos

Ing. Balebona Jenry Página 7 de 12


Tipos de Curvas de Frecuencias.

Las curvas de frecuencia se clasifican según su simetría y su forma en:

( )
( )

Sesgada (Skewed)

Si la Media > Mediana indica que la distribución esta sesgada hacia derecha o sesgada
positivamente, si por el contrario Media < Mediana se dice que la la distribución esta
sesgada hacia izquierda o sesgada negativamente.

Ing. Balebona Jenry Página 8 de 12


Calculo de la Media para Datos Agrupados

Si números tienen media , Si números tienen media números tienen media


, entonces la media de todos los números es:

es decir la media aritmética ponderada de todas las medias.

Si A es una media aritmética supuesta y si son las desviaciones de respecto a A,


y sabiendo que la media de un grupo de datos es:


̅
se tiene que:

∑ ( ) ∑ ( ) ∑ ( ) ∑ ( ) ∑ ( )
̅


̅ ( )

Calculo de la Mediana para Datos Agrupados

Geométricamente la Mediana es el valor de X (abscisa), que corresponde a la recta vertical que


divide un histograma en dos partes de áreas iguales.

Matemáticamente puede hallarse así:

(∑ )
( )

donde
Frontera inferior de la clase que contiene a la mediana.
(∑ ) Suma de frecuencias de las clases inferiores a la clase de la Mediana.
N= Número de Datos, es decir la frecuencia total.
fmediana= frecuencia de la clase mediana.
c = tamaño del intervalo de clase de la mediana.

Ing. Balebona Jenry Página 9 de 12


Calculo de la Moda para Datos Agrupados

La Moda es el valor que ocurre con más frecuencia; es decir el valor que más se repite. La moda
puede no existir e incluso no ser única.

( )

Frontera inferior de la clase que contiene a la mediana.


Diferencia de la clase modal con la frecuencia de la clase Inferior inmediata.
Diferencia de la clase modal con la frecuencia de la clase Superior inmediata.
c = tamaño del intervalo de clase modal.

Geométricamente la Moda puede hallarse si


trazamos dos rectas en la clase modal de tal
forma que hagan una “x” desde los extremos
superiores de la clase modal al lado inferior
de los extremos superiores de las clases
adyacentes inversas. Tal y como lo muestra
la figura del lado derecho.

Ing. Balebona Jenry Página 10 de 12


Glosario.

1. Datos sueltos.
Son los datos recolectados que no han sido organizados numéricamente.
2. Ordenación.
Es el procedimiento de ordenar los datos numéricos en forma creciente o decreciente.
3. Datos Ordenados. Son los datos que han sido ordenados en forma creciente o decreciente..
4. Clases o categorías.
Es la clasificación de grandes cantidades de datos agrupados bajo ciertas características
definidas como categorías o clase.
5. Frecuencia de Clases.
Es el número de datos o individuos que pertenecen a una Clase o Categoría.
6. Tabla de Frecuencia
Es una disposición tabular de los datos por clase, con su correspondiente frecuencia de
clases.
7. Tabla de Frecuencia Relativas
Es una Tabla de frecuencia que expresa la frecuencia de cada clases en forma relativa, es
decir su frecuencia de clases dividida entre la frecuencia total de clases y expresada
generalmente como porcentaje.
8. Datos Agrupados.
Son datos clasificados por clase, distribuidos por frecuencias.
9. Intervalo de clase.
Son los valores extremos de cada clase.
10. Intervalo de clase inferior.
Es el valor extremo inferior de la clase.
11. Intervalo de clase Superior.
Es el valor extremo superior de la clase.
12. Intervalo de clase abierto.
Es una clase que no posee límite de clase inferior o superior, ejemplo “21 años o más”.
13. Frontera de Clases
La frontera de clases va a depender de la exactitud de la medida, por ejemplo si el intervalo
de clases es de (6062) mm y los datos recogidos tienen una exactitud de 1 mm, entonces
la frontera de clase inferior estará dado por:

y la frontera de clase superior vendrá dado por:

14. Tamaño, Longitud o Amplitud de un intervalo de Clases.


Es la diferencia entre la frontera de clase superior e inferior.

15. Marca de Clases

Ing. Balebona Jenry Página 11 de 12


Es el punto medio del intervalo de clases. Se obtiene promediando los límites de clases
superiores e inferiores.
16. Histograma de frecuencias.
Consiste en un conjunto de rectángulos que tienen
 Como base el eje horizontal “x” de las abscisas,
 Sus centros en la marca de clase,
 La longitud de la base igual al tamaño de clase,
 Altura igual a la frecuencia de clase. frecuencia relativa o frecuencia normalizada.
17. Histograma de Frecuencias Relativas.
Este histograma se caracteriza representar las alturas de los rectángulos a la frecuencia
relativa, es decir, la frecuencia de clases dividida entre la frecuencia total de todas las clases
y expresada generalmente como porcentaje. Es de notar que la suma de todas las
frecuencias relativas de clase es igual a la unidad (o 100%).
18. Histograma de Frecuencias Normalizada.
Este histograma se caracteriza representar las alturas de los rectángulos a la frecuencia
Normalizada, es decir, la frecuencia de clases dividida entre la multiplicación de la
frecuencia total multiplicada por el intervalo de Clases. Es de notar que la suma de todas las
áreas de los rectángulos del Histograma De Frecuencia Normalizado tiene como resultado
igual a uno (1).
19. Polígono de Frecuencias.
Es una línea que une todos los puntos medios de la parte superior de los rectángulos del
histograma de frecuencias, histograma de frecuencias relativas o histograma de frecuencia
Normalizada.
20. Frecuencia Acumulada.
Es la frecuencia total de todos los valores menores que la frontera de clase superior de un
intervalo de clase.
21. Tabla de frecuencias acumuladas o distribución acumulada.
Es una tabla que representa las frecuencias acumuladas.
22. Polígono de frecuencia acumulada u ojiva.
Es una gráfica que recoge las frecuencias acumuladas por debajo de cualquiera de las
fronteras de clases superiores respecto a dicha frontera.

El valor del histograma radica en su capacidad para mostrar cómo se distribuyen los
datos en un rango. ¿Están agrupados o dispersos? ¿El histograma tiene una forma
única o parece ser no informativo? Si el histograma tiene una forma única, ¿hay una
distribución de probabilidad adecuada para ello?. Por ejemplo, al analizar los resultados
de una prueba de vida útil de confiabilidad, es de esperar que los datos muestren una
tendencia central, posiblemente con una cola larga que salga en el tiempo o en las
actuaciones. Es útil ajustar una distribución a los datos, ya que esto le permitirá estimar
fallas tempranas, una preocupación por la satisfacción de ambos clientes y los gastos
de garantía del productor.

Ing. Balebona Jenry Página 12 de 12

You might also like