FINAL Estadistica Lore

UNIVERSIDAD NACIONAL DE CUYO
Facultad de Ciencias Aplicada a la industria-Final de estadística

Alumna: Verdugo, Lorena
Introducción
Todo lo relacionado con la recolección, procesamiento, análisis e interpretación de datos
numéricos pertenece al terreno de la estadística.
La estadística es un método científico para analizar y recoger datos de un fenómeno
determinado con el fin de poder obtener conclusiones, emitir predicciones y tomar
decisiones.
 Mediante la presentación ordenada de los datos observados en tabla y gráficos
estadísticos.
 Reduciendo los datos observados a un pequeño número de medidas estadísticas
que permitirán la comparación entre diferentes series de datos.
 Estimando la probabilidad de éxito que tiene cada una de las decisiones posibles.
El presente trabajo tiene como objetivo manejar el método estadístico, como una
herramienta para analizar y sacar conclusiones de una situación real elegida. También
comprende objetivos como manejar las técnicas y procedimientos necesarios para lograr
inferencias estadísticas, con variable aleatoria continua. Además adquirir dominio de las
técnicas específicas y mecanismos como así también la interpretación de los gráficos de
control, y control de calidad.
En el transcurso de este trabajo aplicamos las herramientas vistas durante el cursado de
la materia. En primer lugar se calcularon las medidas estadísticas, distribución normal, las
técnicas de regresión y correlación y finalmente nos introducimos en control de calidad.
1
Desarrollo
Conceptos básicos
Población (N): Es cualquier conjunto de personas, objetos, ideas o acontecimientos que

se someten a la observación estadística de una o varias características que comparten
sus elementos y que permiten diferenciarlos.
Muestra (n): es la parte seleccionada de una población, en la que los elementos que la
componen no tienen ninguna característica esencial que los distinga de los restantes. Se
utiliza cuando es necesario disponer de una parte representativa de la población.
El presente trabajo consta de una muestra de 63 datos de dureza de agua
37,370 36,360 35,020 36,000 38,000 36,000 39,000 41,500 43,500

44,500 42,500 35,000 33,000 39,000 37,000 38,000 38,000 44,000
37,650 44,585 41,613 38,640 44,585 46,567 43,200 40,100 34,756
41,000 43,600 40,000 34,500 37,000 41,000 41,000 36,200 29,100
37,900 40,300 32,200 42,300 37,100 37,900 35,000 39,000 41,700
41,700 40,600 40,200 47,700 43,300 43,000 41,000 39,700 47,500
41,900 46,567 22,400 38,676 43,000 22,400 38,200 37,400 35,600
 Tamaño de la población: Es cada uno de los elementos de una población, puede

ser finito o infinito.
 Carácter: Es cada una de las propiedades, rasgos o cualidades que poseen los
elementos de una población. Los caracteres proporcionan información del
elemento, sus datos. Dependiendo de que los datos de los caracteres sean
cuantitativos o cualitativos se clasifican en variables y atributos respectivamente.
o Variable: Es cualquier carácter de los elementos de una población
susceptible de tomar valores numéricos. Las variables se clasifican en
continuas o discretas. Son variables continuas cuando se admitan infinitos
valores entre dos valores contiguos entre sí. De lo contrario son variables
discretas.
o Atributo: Es cualquier carácter de los elementos de una población no
susceptible de ser medido numéricamente.
 Dominio: es el conjunto de todos los diferentes valores o modalidades posibles
que puede tomar el carácter.
2
Máximo: máximo valor de dureza 47,7 ºF.

Mínimo: mínimo valor de dureza 22,4 ºF.
Rango(R): es la diferencia entre el máximo y mínimo de las variables (25,3 ºF).
Número de Clase (k): son los diferentes grupos que se forman al reunir varios valores de
variable. Si se tiene gran variabilidad en los datos, se agrupan en clases y cada clase
tendrá intervalos. Para determinar el número de clases se utiliza la fórmula de Sturgess.
 Fórmula de Sturgess: K=1+3.3*log(n)
Amplitud o Longitud del intervalo de clase (h2): nos indica la distancia entre el límite
superior y el inferior de un intervalo. Se calcula con la siguiente expresión (rango dividido
la cantidad de intervalos (k)):
 h1=R(rango) /raíz cuadrada (n) otra forma
 h2=R(rango) / K
MUESTRA(n) 63
máximo 47,7 ºF
mínimo 22,4 ºF
rango R 25,3 ºF
Clases (k) 6,94 6
Amplitud(h2) 3,64668 5
Distribución de frecuencias
Es una estadística basada en la reducción de datos mediante agrupación de los mismos

con arreglos a un criterio de repetición. En este tipo de estadística los elementos pierden
su individualidad en beneficio de un mejor conocimiento del comportamiento general.
Se sigue el siguiente proceso con los datos obtenidos en la observación:
1. Ordenación.
2. Agrupación de valores que se repiten, frecuencias.
3. Obtención de la tabla de frecuencias.
3
Frecuencia absoluta (ri): Es el número de veces que se presenta un determinado valor
dentro de los límites de cada intervalo. La suma total de todas las frecuencias absolutas
es el tamaño de la población (N) de elementos observados.
Frecuencia relativa (fi o yi): Es una proporción entre el número de veces que se repite un
dato y el tamaño de la población. En consecuencia, la suma de todas las frecuencias
relativas es siempre la unidad. Se obtiene dividiendo la frecuencia absoluta por el tamaño
de la población. Se representa por: fi=ri/N.
Frecuencia absoluta acumulada (Ni): es igual a la frecuencia absoluta de ese intervalo
más la suma de las frecuencias absolutas de las clases anteriores. Esta frecuencia
representa, cuando existe una relación de orden, el número de elementos de la población
que quedan por encima o por debajo del elemento cuyo valor se analiza, lo que implica
que pueden ser negativas o positivas.
Frecuencia relativa acumulada (Fi): Es igual a la suma de las frecuencias relativas de
todos los datos menores o iguales que dicho valor.
clases Intervalos ri fi Ni (+) Ni (-) Fi(+) Fi(-)

Limite Limite
Inferior Superior
1 21 26 2 3,17 2 63 3,175 100
2 26 31 1 1,59 3 61 4,762 96,825
3 31 36 8 12,70 11 60 17,460 95,238
4 36 41 27 42,86 38 52 60,317 82,540
5 41 46 21 33,33 59 25 93,651 39,683
6 46 51 4 6,35 63 4 100 6,349
Σri Σfi
63 100
Interpretación: para el intervalo (36;41)

ri= (hay 27 mediciones de dureza que tienen sus valores entre 36 y 41 º F)
Ni(+) = (hay 38 mediciones de dureza cuyos valores se hayan entre 21 y 41 ºF)
Ni(-) = (hay 52 mediciones cuyos valores se hayan entre 36 y 51 ºF)
Representaciones Gráficas: Las distribuciones más usadas son las siguientes:
4
1- Gráfico de frecuencias simples (absoluta y relativa): Se representan mediante

Histogramas, que están constituidos por tantos rectángulos como clases se consideran
en una distribución. La base de cada rectángulo será la amplitud correspondiente a cada
clase. El área de cada rectángulo debe ser igual a la frecuencia simple del
correspondiente intervalo.
Histograma
27
FRECUENCIA ABSOLUTA
30
25 21
20
15
8
10
4
5 2 1
0
26 31 36 41 46 51
21 26 31 36 41 46
LIMITES
2- Polígono de frecuencias: Se presenta por un punto, cada par (xi, ri) o (xi, fi),
uniéndose mediante segmentos cada dos puntos consecutivos.
30
Polígono de frecuencia
FRECUENCIA ABSOLUTA
25
20
15
10
5
0
21 26 31 36 41 46 51 mayor
menor 21 26 31 36
LIMITES 41 46 51
3-OJIVAS
Una gráfica similar al polígono de frecuencias es la ojiva, pero esta se obtiene de aplicar
parcialmente la misma técnica a una distribución acumulativa.
5
La ojiva es una gráfica asociada a la distribución de frecuencias, en la cual en ella se
permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores,
en lugar de sólo exhibir los números asignados a cada intervalo.
La ojiva apropiada para información que presente frecuencias mayores que el dato que se
está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio
la que se asigna a valores menores, tendrá una pendiente positiva.
El cruce de ambas curvas corresponde a la mediana.
70
Gráfico de ojivas
60 63 61 63
60 59
frecuencia acumulada
50 52
40 38
30
25
20
10 11
2 3 4
0
26 31 36 41 46 51
21 26 31 36 41 46
limites
Medidas de distribución.
Si queremos comparar dos distribuciones de frecuencias, es necesario buscar una serie
de medidas que permitan diferenciar una distribución de otra de igual forma que un
cuerpo sólido se diferencia de otro en sus dimensiones o en cualquier otra característica
factible de medirse.
Por lo tanto la información suministrada por cada tabla puede resumirse en un conjunto de
medidas que permitan la comparación entre distribuciones de frecuencias
correspondientes a poblaciones diferentes.
Cada una de estas medidas debe cumplir la propiedad de proporcionar una única solución
para cada distribución de frecuencias.
6
1- Medidas de posición o tendencia central
Estas medidas permiten identificar una distribución midiendo el valor que toma la variable
en diversas posiciones singulares de la misma, es decir que proporcionan un único valor
que sustituye y puede representar a todos los valores de variable.
Media Aritmética: Se define como media aritmética o media de un conjunto de N

números x1, x2,…, xn, a la razón entre la suma de todos los números y el número de
elementos del conjunto.
X 
x i  ri
N
Donde xim*ni es la frecuencia absoluta de cada intervalo multiplicada por la marca de la
clase.
La media es una medida apropiada de tendencia central para muchos conjuntos de datos,
pero se ve muy afectada, de manera desproporcionada, por los valores extremos de baja
frecuencia.
Otra forma de calcular la media, con los datos agrupados, es con la siguiente fórmula:
k
f i  xi
X 
i 1 n
Media Geométrica: De una serie de N números es la raíz enésima del producto de los
números elevados a su respectiva frecuencia y se utiliza para calcular promedios del tipo
tasa media.
Log X g 
 r log x i i
Media Armónica: De una serie de N números es la recíproca de los números recíprocos

de la media aritmética y se utiliza para calcular promedios con velocidades medias. No se
deja influenciar por los valores extremos menos frecuentes.
N
Xa 
r
 xi
i
Mediana: Si se ordenan todos los valores de la variable en sentido creciente o

decreciente, la mediana es el valor de la variable correspondiente al elemento que ocupa
la posición central. El valor de la mediana deja la mitad de los valores por encima de ella y
la otra mitad por debajo.
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la
mediana se calcula utilizando la siguiente fórmula:
º Me  N (i 1)
Me  Li  * Ci
ri 7
Donde C es la amplitud del intervalo donde está situada la mediante y ni es el valor de la

frecuencia en este intervalo.
°Me= orden de la mediana = (n + 1)/ 2
Moda: Es el valor de la variable que se presenta mayor número de veces, es decir es el

valor de mayor frecuencia. Muestra hacia qué valor los datos tienden a agruparse.
Se puede calcular viendo cuál es el intervalo que tiene mayor frecuencia absoluta (o
acumulada), y ese intervalo se llama clase modal. Entonces, se define a la media como
el punto medio de esa clase.
n(i 1)
Mo  Linf  * Ci
n(i 1)  n(i 1)
Si existen varios valores de variable con idéntica frecuencia y éstas además son las
mayores, se dirá que la distribución es PLURIMODAL.
Medida de tendencia central

Media aritmética x̅ = Σ ( xim)*ri /n 39,53
Media geométrica x̅g=10^(Σri*log( xim)/n) 39,17
Media armónica x̅a=n/Σ(ri/(xim)) 38,76
Orden de mediana ºMe=(n+1)/2 32
Mediana=Li+ h*((ºMe - r(i-1))/ri * ºMe) 39,89
Moda Mo=Li+h*ri (i+1) / [ri(i-1)+ri(i+1)] 39,62
Percentiles o Cuantiles: Si se ordenan los elementos de una población en función del

valor de variable y se divide esta serie de elementos en intervalos iguales, de forma tal
que cada una de ellas tenga el mismo número de observaciones, los percentiles o
cuantiles serán los valores de la variable de los elementos que ocupan estas posiciones
divisorias.
Según el número de partes en que se divide la distribución se denomina:
 Quintiles: (5 partes iguales) corresponde al 20%,40%,60%,80%.
 Deciles: (10 partes iguales), equivalen a los porcentajes 10, 20, 30….
 Percentiles o centiles: 100 partes, estos equivalen a los números enteros 1, 2,
3…100. Son 99 valores que dividen en cien porciones iguales el conjunto de datos
8
ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las
observaciones, y por encima queda el 85%.
 Cuartiles: (4 partes iguales). Son los tres valores que dividen al conjunto de datos
ordenados en cuatro porciones iguales, son un caso particular de los percentiles,
correspondiendo a los percentiles 25, 50 y 75.
 El primer cuartil Q1 es el valor de la variable que deja a la izquierda el 25% de la

distribución y el 75% a la derecha.
 El segundo cuartil Q2 (la mediana), es el valor de la variable que deja a la

izquierda el 50% de la distribución.
 El tercer cuartil Q3 es el valor de la variable que deja a la izquierda el 75% de la

distribución y el 25% a la derecha.
º Qs  N (i 1) N 1 N 1
Qs  Li 1  *h o
Q1  o
Q3  3 *
ri 4 4
CUARTILES
orden de cuartil qº1 16
cuartil 1 q1 40,375
cuartil 2 q2 40,444
cuartil 3 q3 43,407
cuartil 4 q4 41,985
Interpretación
Q1: el 25% de los datos tienen una dureza menor a 40,375ºF y el 75% mayor a
40,375ºF.
Q3: el 75% de los datos tienen una dureza menor a 43,407ºF y el 25% mayor a
43,407ºF
2- Medidas de dispersión
Si los valores observados de la variable están muy concentrados alrededor de un
promedio, este es muy representativo, pero si aquellos valores están dispersos con
relación a un promedio este es muy poco representativo y es necesario recurrir a las
9
medidas de dispersión. Las diversas medidas de dispersión que se trataran son: rango,
varianza, desviación y coeficiente de variación.
Medidas absolutas
Desviaciones de las observaciones con respecto al promedio:
Un estudio que puede dar idea de la distribución seria conocer las desviaciones de los
valores de la variable con respecto de la media aritmética o cualquier otro promedio.
Como en una distribución existirán N observaciones, habrá N desviaciones.
Si se sacara un promedio de todas estas desviaciones, parece que sería una buena forma
de medir la dispersión, pero existe un inconveniente y es que el valor de este promedio
sería igual a 0, según una de las propiedades de la media aritmética, (∑ (xi – X) = 0).
Para evitar este problema se pueden utilizar valores absolutos de las desviaciones o
presentarlas al cuadrado. Las desviaciones más utilizadas son: Desviación estándar,
media, mediana y la varianza.
 Varianza: Se puede definir como la media aritmética de las desviaciones de los

valores obtenidos de la variable con respecto a su media aritmética elevada al
cuadrado.
Si en lugar de utilizar valores absolutos para eliminar el problema del signo de las
desviaciones, se elevan estas al cuadrado se obtiene una nueva medida de
dispersión conocida como varianza. Tiene el problema que utiliza las unidades de
los valores de la variable elevados al cuadrado lo que hace que su interpretación
sea difícil, para evitar este problema se utiliza la desviación típica.
 (x  2  m2  m1
2 2
 X) * ri
2
i

N 1
 Desviación típica o estandar: Es la raíz cuadrada positiva de la varianza y se

calcula por:
 
2
Es la raíz cuadrada de la varianza o la media cuadrática de las desviaciones.

También se la conoce como desviación tipo, desviación cuadrática media o
desviación estándar.
 Rango: Queda determinado por la diferencia entre el valor máximo y el valor

mínimo de las variables. Se denomina también recorrido. Cuanto mayor sea el
rango, mayor será el campo de variación de la variable y por tanto su dispersión.
10
Es una medida poco precisa, pero se la utiliza para dar una idea de la variabilidad
de los datos de una forma rápida y sencilla.
 Rango: 25,3 °F
Medidas relativas
 Coeficiente de variación de Pearson: Si se comparan dos distribuciones, sus

dispersiones se pueden calcular mediante la desviación típica si sus medias
aritméticas son iguales o muy próximas, en este caso se utiliza el coeficiente de
variación.
A menor coeficiente de variación, menor será la dispersión y mayor será la

representatividad de la media aritmética.
El coeficiente de variación mide la dispersión relativa (desviación típica) y el

promedio (media aritmética).
El coeficiente de variación es el cociente entre la desviación típica y la media. Se

puede presentar en % multiplicándolo por 100.

CV 
X
Medidas de Dispersión
varianza σ2 = m2-m1^2 25,5228017
desviación o dispersión σ 5,05200967
Cv 0,12779627
3- MEDIDAS DE FORMA
Una medida de posición proporciona un valor que representa al conjunto de todos los
valores observados y el grado de representatividad de esta medida se obtiene mediante
una medida de dispersión.
Al sustituir estos valores observados por estas medidas representativas, se pierde no solo
la individualidad de los diferentes elementos de la distribución sino, también la propia
estructura de la distribución que está determinada por su representación gráfica. Esta
pérdida del conociendo de la estructura de la distribución se puede atenuar utilizando las
medidas que identifiquen la forma de su representación gráfica.
La estructura de una distribución está determinada por la forma de su diagrama de barras

o su histograma. Mediante estos se puede observar si los valores de la variable están o
no muy concentrados.
El histograma se suele sustituir por una línea curva que ajustándose a los escalones del
histograma los suaviza.
11
El área comprendida entre la curva y el eje de abscisas debe ser igual a la suma de las
áreas de todos los rectángulos del histograma que a su vez es igual al número de
observaciones.
Las distribuciones en forma de campana, campaniformes son las más habituales en la

estadística práctica. Estas distribuciones se caracterizan porque el mayor número de
observaciones se agrupan entre valores de la variable más o menos centrales siendo
raros los valores extremos.
 Simétrica: La figura puede doblarse por su eje vertical y ambas ramas de la curva
coinciden.
Si la distribución es campaniforme, simétrica y las dos ramas son asíntotas del eje
de abscisas se la denomina distribución de Gauss o de Laplace-Gauss. Esta
distribución fue obtenida al estudiar los errores de las medidas, por eso también.
Se la conoce como curva de errores. Esta distribución es la más importante y se la
conoce como distribución normal.
 Asimétrica a la derecha o al a izquierda: Según a qué lado este la rama más

larga de la curva. La asimetría a la derecha se la denomina positiva y a la
izquierda negativa.
Las medidas de forma las podemos clasificar en dos clases diferentes:
1. Medidas de asimetría o sesgo
Miden el grado de asimetría de una distribución con respecto a un valor central (media
aritmética o mediana).En este caso es necesario conocer que signo tiene cada valor. Por
este motivo en las medidas de asimetría se utiliza la potencia de grado tres:
m3 
 ( xi  X ) 3 * ri
N
Expresión en la que se deduce fácilmente que si:
 m3 =0, la forma de la distribución es simétrica.
 m3>0, es asimétrica a la derecha o sesgo positivo.
 m3<0, es asimétrica a la izquierda o sesgo negativo.
Este coeficiente m3 se le conoce como momento de tercer orden con respecto a la

media.
12
 m3=62299,68344 es asimétrica a la derecha o sesgo positivo
 “Coeficiente de asimetría de Fisher” o Coeficiente de deformación: m3 tiene

el inconveniente que viene en la misma unidad que la variable pero elevada al
cubo. Para conseguir hacer este valor adimensional se recurre al Coeficiente de
asimetría de Fisher.
1
m3 *  ( X im  X ) * ri
3
1  1  N
3 
3
 γ1 =0, la forma de la distribución simétrica.
 γ1>0, es asimétrica a la derecha positivo.
 γ1<0, es asimétrica a la izquierda negativo
 Coeficiente Asimetría: γ = -0,5575038 asimétrica a la izquierda, negativa.
 “Coeficiente de asimetría de Pearson” (Ap1 ;Ap2): Si la distribución es

campaniforme y simétrica los valores de la media aritmética y la moda coinciden,
pero si es asimétrica estos dos promedios no coincidirán. La media corresponderá
al centro de gravedad de la figura y la moda a la máxima ordenada.
Si la diferencia entre la media y la moda es positiva se dice que hay asimetría

positiva o a la derecha, si la diferencia es negativa se dice que hay asimetría
negativa o a la izquierda, si la diferencia es igual a cero, la distribución es
simétrica.
X  MO 3* ( X  Me )
Ap1  AP 2 
SX SX
En este coeficiente de asimetría si:
 Ap1 =0, la forma de la distribución es simétrica.
 Ap1>0, es asimétrica a la derecha, positivo.
 Ap1<0, es asimétrica a la izquierda, negativo.
 En el trabajo el coeficiente de asimetría de Pearson es -0,11676 lo que indica que

la forma de distribución es asimétrica a la izquierda, negativa.
13
2. Medidas de apuntamiento o curtosis:

Se utiliza la palabra curtosis para determinar a las medidas de forma que miden el
apuntamiento o el achatamiento de las distribuciones campaniforme que son unimodales
y ligeramente asimétricas.
Estas medidas estudian la distribución de frecuencias en las zonas centrales, sin
necesidad de graficar la curva. Miden la mayor o menor concentración de la frecuencia
alrededor de la media. Ósea su nivel de apuntamiento.
Las distribuciones campaniformes pueden adoptar las siguientes denominaciones según
su grado de apuntamiento o curtosis:
 Mesocúrtica: Tienen el mismo apuntamiento que la distribución normal.
 Platicúrtica: Mas achatada que la normal.
 Leptocúrtica: Mas apuntada que la normal.
Coeficiente de aplastamiento de Fisher

Este coeficiente también denominado de curtosis o apuntamiento viene definido por la
expresión:
m4
2 
4
Siendo σ=desviación típica: m4 = momento de orden 4 respecto a la media aritmética o
momento central.
Como γ2 para una distribución normal es igual a tres se suele utilizar el coeficiente de
apuntamiento o curtosis corregido, también conocido como coeficiente de exceso, que
viene dado por la expresión:
1
m4 *  ( X im  X ) * ri
4
k 3 k N 3
 4 4
m4 
 ( xi  X ) 4 * ri
N
Es estos coeficientes si:
14
 γ2=3 o k=0, la distribución es mesocúrtica sin exceso.
 γ2>3 o k>0, la distribución es leptocúrtica con exceso.
 γ2<3 o k<0, la distribución es platicúrtica achatada.
 γ2=3,47 y k=0,4763 la distribución es leptocúrtica con exceso.
Según el grado de aplastamiento de una curva con respecto a la normal se clasifican en:
 Mesocúrtica: tiene el mismo aplastamiento que la distribución normal
2,6 < γ2 <3,4
-0,4< k < 0,4
 Leptocúrtica: es más apuntada que la distribución normal
 Platicúrtica: es más achatada que la normal.
Medidas de forma
Asimetría γ1 =μ3/σ3 -0,882
Pearson Ap1= (x̅-Mo)/σ -0,017
Pearson Ap2 =((x̅-Me)/σ)*3 -0,212
Apuntamiento γ2 =μ4/σ4 4,596
curtosis K =Y2 - 3 1,596
Interpretación:
El coeficiente de asimetría de Fisher es menor a cero γ1<0, nos indica que la curva
presenta asimetría hacia la izquierda negativa, es decir que las frecuencias más altas se
dan a la derecha, lo cual concuerda con la gráfica. Además, también esto me lo indica la
asimetría de Pearson 1 (diferencia entre la media aritmética y la moda, dividido por la
desviación estándar), Ap1<0 (asimétrica a la izquierda, negativa).
El coeficiente de apuntamiento, γ2 > 3 y k > 0, nos dice que la distribución que se

presenta es leptocúrtica, con exceso ligeramente positivo, es decir más apuntada que
la normal. Este es el parámetro que mejor describe la medida de forma que presentan los
datos en análisis.
15
La distribución normal
Una vez obtenido el histograma, y si unimos los puntos medios de los rectángulos
podemos dibujar una línea curva bastante parecida a una campana simétrica, o sea:
Esta curva obtenida empíricamente se asemeja a una curva teórica unimodal y
perfectamente simétrica que caracteriza a una distribución de probabilidad conocida como
distribución normal, Guassiana o de Laplace, o también llamada campana de Gauss .
La distribución normal presenta un valor de mayor frecuencia, a partir de él, decae hacia
ambos lados con una simetría perfecta. Esta simetría hace que a valores situados a igual
distancia del valor modal por izquierda y por derecha de la distribución, les corresponda la
misma probabilidad.
Por ser la distribución perfectamente simétrica la media coincide con la mediana y la
moda. Se encuentra en el punto del eje de abscisas que divide a la distribución en dos
partes iguales y a su vez registra el valor de la variable de mayor frecuencia.
La desviación estándar, medida de variabilidad de la distribución determina la mayor o
menor dispersión de los datos alrededor de la media. Cuando crece, la curva se achata.
Esta distribución nos da la probabilidad de que al elegir un valor, éste tenga una medida
contenida en unos intervalos definidos. Esto permitirá predecir de forma aproximada, el
comportamiento futuro de un proceso, conociendo los datos del presente.
NOTA: Lo que me permite ver si puedo normalizar es la asimetría y la curtosis.
ri Probabilidad límite inferior Probabilidad del intervalo ri teorica

21 26 2 0,000122135 0,003575636 0
26 31 1 0,003697772 0,041932778 3
31 36 8 0,04563055 0,196621266 12
36 41 27 0,242251815 0,37208015 23
41 46 21 0,614331965 0,285453986 18
46 51 4 0,899785951 0,08861141 6
51 mayor 0,988397361 0,011602639 1
63 1 0,999877865 63
media aritmetica 39,53
dispersion 5,052009671
16
30
25
20
observado
15
teorico
10
0
26 31 36 41 46 51
REGRESIÓN Y CORRELACIÓN
El término regresión implica encontrar una función matemática que relacione lo mejor
posible las distintas variables observadas se llama regresión al proceso matemático
mediante el cual se halla la función que aproxima a los puntos de dicho diagrama.
La correlación trata de buscar una medida matemática lo más ajustada y exacta que
determine el grado de relación entre las variables, es decir que exprese la diferencia
existente en la ecuación obtenida por regresión (valores estimados) y los valores reales
de la distribución.
Habrá una correlación perfecta cuando ambos valores (en general y e y*) coincidan. Entre
el valor que mida dicha correlación total (r=1) y la correlación nula (r=0) podemos obtener
una amplia gama de posibles relaciones que necesiten ser estudiadas.
Si el número de variables es el mínimo o sea dos (una dependiente y la otra

independiente) se trata de una correlación y regresión simple (regresión lineal simple
donde hay una sola variable de regresión independiente X y una sola variable aleatoria
dependiente Y).
Si los puntos (xi, yi) (i=1,2,3,4…n) que aparecen en un diagrama de dispersión se
aproximan a una curva, como anteriormente se mencionó, se llama regresión al proceso
matemático mediante el que se halla una curva matemática que se aproxima a la curva de
puntos.
El término regresión lineal implica que yk se relaciona linealmente con k mediante la

ecuación de regresión:
Yk = b0 + b1 * xk
17
La correlación trata de buscar una medida matemática lo más ajustada y exacta que
determine el grado de relación entre estas dos variables.
Coeficientes de determinación de correlación
Concepto y relación:
Si se halla la proporción entre la variación aplicada por la función regresión y la variación

total, se obtiene el “coeficiente de determinación”.
2 2
S Ry S n2 VE S xy
R 
2
 1 2  R 2

S y2 S y VT S x2 S y2
Tiene un carácter general, válido para ajustes lineales simples, múltiples y no lineales.
El coeficiente de determinación, por ser un cociente entre un valor parcial y el

correspondiente valor total de la varianza, tiene valores que están en el intervalo cerrado
de 0 y 1, es decir:
0  R2  1
Los valores extremos del intervalo tienen la interpretación siguiente:
 Cuando R^2 = 1 significa que no hay errores o residuos y, por tanto, todas las
variaciones de Y vienen explicadas por X.
 Cuando R^2 =0 quiere decir que la función de regresión no explica ninguna de
las variaciones de Y, con lo que se entiende que dicha función de regresión no
es válida.
Del resto de los infinitos valores intermedio se puede resaltar lo siguiente:
 Si R^2 > 0.9, la función de regresión es adecuada.

 Si R^2 < 0.75, la función de regresión no es la adecuada para explicar
variaciones de Y.
 Coeficiente de correlación de Pearson: Es la raíz cuadrada de R^2, se designa

con la letra r e indica el grado de variación conjunta de las dos variables.
S ry S
r  1 2 r  xy
S y Sx * S y
18
Si los valores de R^2 oscilaban entre 0 y 1, los valores de r variarían en el intervalo:
1  r  1
El coeficiente de correlación mide el grado de asociación lineal entre las variables, la
bondad o fiabilidad de la predicción, debida a una relación causal que existe entre ellas o
la influencia que en ambas ejerce una tercera.
 Análisis
En nuestro caso, el número de variables es el mínimo (2), en el cual una de ellas es la

variable dependiente (dureza) y la otra la independiente (calcio y magnesio).
DUREZA(x) CALCIO +MAGNESIO X^2 Y^2 X*Y

ºf mg/l
35,6 138 1267,36 19044 4912,8
37,9 146 1436,41 21316 5533,4
32,6 124 1062,76 15376 4042,4
38,1 144 1451,61 20736 5486,4
38,6 146 1489,96 21316 5635,6
41,7 153 1738,89 23409 6380,1
34,8 131 1211,04 17161 4558,8
35,7 132 1274,49 17424 4712,4
38,8 143 1505,44 20449 5548,4
33,6 130 1128,96 16900 4368
367,4 1387 13566,92 193131 51178,3
La bondad de ajuste o coeficiente de determinación R2 significa que la recta representa el

93% aproximadamente; es decir que la función de regresión es la adecuada para explicar
variaciones de Y.
El coeficiente de correlación r, mide el grado de asociación lineal entre las variables en

este caso es igual a 0,96 es decir que existe relación lineal.
19
REGRESIÓN Y CORRELACIÓN
y = 3.286x + 17.792
180 R² = 0.9297
160
140
120
100
80
60
40
20
0
0 10 20 30 40 50
Control de calidad
Control Estadístico de Procesos
Es un conjunto de herramientas estadísticas que nos permite recopilar, estudiar y analizar
la información de procesos repetitivos para poder tomar decisiones encaminadas a la
mejora de los mismos.
Actualmente, todas las empresas modernas saben que lograr un buen nivel de calidad es
fundamental para el éxito de su gestión.
Definición de la calidad: Conjunto de cualidades que constituyen la manera de ser de
una persona o cosa propiedad o conjuntos de propiedades inherentes a algo, que
permiten juzgar su valor.
Definición de defecto: Un defecto es el incumplimiento de una característica de calidad
respecto de un límite especificado.
Función del control de la calidad: La función del control de calidad es la de determinar
si el comportamiento de un proceso se mantiene en un nivel aceptable de calidad. El
control de calidad recibe una creciente atención como herramienta de administración en la
que importantes características de un producto se observan, evalúan y comparan con
algún tipo de estándar.
Principios del control de la calidad
20
 Control no es clasificación ni elección, es una operación más de la fabricación.

 “Con el control no puede obtenerse calidad” esta es una característica inherente al
producto.
 “El control no resuelve problemas de fabricación, sólo da las razones para
estudiarlo”
Causas asignables y no asignables
Son las causas que producen las variaciones en las características de la calidad, y esto
es válido tanto para control de variables como para el control de atributos.
• Causas no asignables: En la fabricación de un elemento, por ejemplo, no se
puede lograr piezas perfectamente iguales ni con la misma calidad, por la sencilla razón
de que no permanecen absolutamente constantes todos los elementos del sistema. Es
por esto que existen las tolerancias.
Las causas no asignables, es el conjunto formado por una gran cantidad de causas de
variación, cuya influencia sobre el resultado es muy pequeña, y todas interdependientes
entre sí. Se llaman así, porque la naturaleza de estas causas hace que no podemos
asignar la variación encontrada a ninguna de estas causas, en particular.
Pero al provocar variaciones que pueden ser vistas “al azar”, es tan probable que
produzcan una variación en exceso como en defecto, y más probable aún que tiendan a
compensarse, más que a sumarse produciendo variaciones grandes, al haber esta
variabilidad al azar.
La distribución de probabilidades de las variaciones producidas por causas no asignables
responde a la ley de Gauss.
Las causas no asignables, son imposibles de eliminar, porque están siempre presentes,
ya que el Universo, por ellas producido, responde a una ley de Gauss, habrá una media y
una desviación normal perfectamente definidas. La aparición de causas no asignables
provocará un cambio en la media, en la desviación normal, o en ambas a la vez.
• Causas asignables: Se distinguen por ser pequeñas en número, pero de gran
influencia sobre el resultado. Se caracterizan por llevar el proceso paulatina o
repentinamente en un sentido determinado. No están siempre presentes y cuando se
presentan, en general, las variaciones que se producen no responden a ninguna ley.
Entonces suelen ser sencillas de localizar y deben su nombre a que se puede asignar a
una de ellas la variación encontrada.
21
Gráficos de control
La finalidad de una gráfica de control es detectar la presencia de causas asignables, y si
el comportamiento de un proceso se mantiene en un nivel aceptable de calidad.
Una gráfica de control tiene la intención de ser un dispositivo para detectar el estado
fuera de control de un proceso.
Entonces, son dos los gráficos que se realizarán: uno sobre el cual se representarán los
promedios (control de exactitud) y otro sobre el cual se representan los intervalos o las
desviaciones normales (control de precisión). En la industria se ha optado estos tipos de
gráficos por su sencillez y eficacia para pequeños tamaños de muestra.
El Control Estadístico de Procesos se basa en repetir una toma de muestras de manera

periódica, calcular la media muestral y representar un gráfico, de modo que si la media
cae fuera de los límites de control existe la evidencia de que hay una causa asignable
presente (proceso fuera de control). A este gráfico se le denomina Gráfico de Medias o
simplemente Gráfico X.
 Análisis
En este caso se realiza el análisis con respecto a la dureza tomando 15 grupos con un
tamaño de población de 4.
Observando el grafico de medias con los límites sin especificación se puede destacar que
presenta una distribución más o menos pareja entorno a la media de las medias. Si
analizamos el grafico en función de los límites con especificación en el punto 4 está muy
cerca del límite inferior y en el punto 13 se encuentra fuera del límite inferior, lo cual
puede deberse a causas asignables que puede deberse al manipuleo de muestra.
El grafico de rangos permite observar la estabilidad general del proceso. Observamos que
en grafico de rangos los primeros muestreos no se presenta mucha variación por lo que
se debe a causas no asignables pero entre los puntos 11 y 13 sobrepasa el límite superior
por lo que no es preciso.
22
Exactitud Gráfica de medias

50
45
40
Dureza
35
30
25
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Precisión Grafico de rangos

29.5
24.5
19.5
Rango
14.5
9.5
4.5
-0.5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Bibliografía:
 Libro: “ESTADÍSTICA DESCRIPTIVA”; Autores: Santiago Fernández Fernández,

José María Cordero Sánchez, Alejandro Córdoba Largo; Editorial Esic, Madrid
2002.
 Libro: “PROBABILIDAD Y ESTADÍSTICA PARA INGENIEROS”; Autores: Walpole,

Myers, Myers. Editorial Prentice Hall.
 Codigo alimentario argentino actualizado, CAPÍTULO XII-Artículo 982
23
24

FINAL Estadistica Lore

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

FINAL Estadistica Lore

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL DE CUYO

Facultad de Ciencias Aplicada a la industria-Final de estadística

Población (N): Es cualquier conjunto de personas, objetos, ideas o acontecimientos que

37,370 36,360 35,020 36,000 38,000 36,000 39,000 41,500 43,500

 Tamaño de la población: Es cada uno de los elementos de una población, puede

Máximo: máximo valor de dureza 47,7 ºF.

Es una estadística basada en la reducción de datos mediante agrupación de los mismos

clases Intervalos ri fi Ni (+) Ni (-) Fi(+) Fi(-)

Interpretación: para el intervalo (36;41)

Representaciones Gráficas: Las distribuciones más usadas son las siguientes:

1- Gráfico de frecuencias simples (absoluta y relativa): Se representan mediante

El cruce de ambas curvas corresponde a la mediana.

Media Aritmética: Se define como media aritmética o media de un conjunto de N

Media Armónica: De una serie de N números es la recíproca de los números recíprocos

Mediana: Si se ordenan todos los valores de la variable en sentido creciente o

Donde C es la amplitud del intervalo donde está situada la mediante y ni es el valor de la

°Me= orden de la mediana = (n + 1)/ 2

Moda: Es el valor de la variable que se presenta mayor número de veces, es decir es el

Medida de tendencia central

Percentiles o Cuantiles: Si se ordenan los elementos de una población en función del

 El primer cuartil Q1 es el valor de la variable que deja a la izquierda el 25% de la

 El segundo cuartil Q2 (la mediana), es el valor de la variable que deja a la

 El tercer cuartil Q3 es el valor de la variable que deja a la izquierda el 75% de la

Desviaciones de las observaciones con respecto al promedio:

Como en una distribución existirán N observaciones, habrá N desviaciones.

 Varianza: Se puede definir como la media aritmética de las desviaciones de los

 Desviación típica o estandar: Es la raíz cuadrada positiva de la varianza y se

Es la raíz cuadrada de la varianza o la media cuadrática de las desviaciones.

 Rango: Queda determinado por la diferencia entre el valor máximo y el valor

 Coeficiente de variación de Pearson: Si se comparan dos distribuciones, sus

A menor coeficiente de variación, menor será la dispersión y mayor será la

El coeficiente de variación mide la dispersión relativa (desviación típica) y el

El coeficiente de variación es el cociente entre la desviación típica y la media. Se

La estructura de una distribución está determinada por la forma de su diagrama de barras

Las distribuciones en forma de campana, campaniformes son las más habituales en la

 Asimétrica a la derecha o al a izquierda: Según a qué lado este la rama más

Las medidas de forma las podemos clasificar en dos clases diferentes:

1. Medidas de asimetría o sesgo

Expresión en la que se deduce fácilmente que si:

 m3 =0, la forma de la distribución es simétrica.

 m3>0, es asimétrica a la derecha o sesgo positivo.

 m3<0, es asimétrica a la izquierda o sesgo negativo.

Este coeficiente m3 se le conoce como momento de tercer orden con respecto a la

 “Coeficiente de asimetría de Fisher” o Coeficiente de deformación: m3 tiene

 γ1 =0, la forma de la distribución simétrica.

 γ1>0, es asimétrica a la derecha positivo.

 γ1<0, es asimétrica a la izquierda negativo

 Coeficiente Asimetría: γ = -0,5575038 asimétrica a la izquierda, negativa.

 “Coeficiente de asimetría de Pearson” (Ap1 ;Ap2): Si la distribución es

Si la diferencia entre la media y la moda es positiva se dice que hay asimetría

 Ap1 =0, la forma de la distribución es simétrica.

 Ap1>0, es asimétrica a la derecha, positivo.

 Ap1<0, es asimétrica a la izquierda, negativo.

 En el trabajo el coeficiente de asimetría de Pearson es -0,11676 lo que indica que

2. Medidas de apuntamiento o curtosis:

Coeficiente de aplastamiento de Fisher

Es estos coeficientes si:

El coeficiente de apuntamiento, γ2 > 3 y k > 0, nos dice que la distribución que se

NOTA: Lo que me permite ver si puedo normalizar es la asimetría y la curtosis.

ri Probabilidad límite inferior Probabilidad del intervalo ri teorica

Si el número de variables es el mínimo o sea dos (una dependiente y la otra

El término regresión lineal implica que yk se relaciona linealmente con k mediante la

Coeficientes de determinación de correlación