Estadística descriptiva: introducción, variables, tablas y gráficos

TEMA 8
ESTADISTICA DESCRIPTIVA
1. INTRODUCCIÓN
La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las
observaciones, para poder hacer comparaciones y sacar conclusiones
Clasificación de la estadística:
1. Estadística descriptiva o deductiva: Se enfoca en la presentación y clasificación de los datos
obtenidos de la población analizada
2. Estadística inferencial o inductiva: Mediante la cuál es posible realizar estimaciones de las
características de una población o realizar la toma de decisiones basados en resultados
muestrales. Estimación, prueba de hipótesis, predicción
Un estudio estadístico descriptivo consta de las siguientes fases:
1. Recogida de datos
2. Organización y representación de datos (tablas de frecuencia, gráficas)
3. Análisis de datos o descripción (uso de estadígrafos o estadísticos)
4. Obtención de conclusiones
DEFINICIONES:
Población (N): Es el conjunto de todos los elementos a los que se somete a un estudio estadístico
Individuo o unidad estadística: Cada uno de los elementos que componen la población
Muestra (n): Es un conjunto representativo de la población de referencia, en número de individuos
de una muestra es menor que el de la población ( n < N )
Muestreo: Es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y
representativa de la población (muestra)
Valor: Es cada uno de los distintos resultados que se pueden obtener en un estudio estadístico. Por
ejemplo si lanzamos una moneda obtenemos dos valores: cara y cruz
Datos: Es cada uno de los valores que se ha obtenido al realizar un estudio estadístico. Por ejemplo,
si lanzamos una moneda al aire 5 veces obtenemos 5 datos (cara, cara, cruz, cara, cruz)
1
2. Tipos de variables estadísticas:
Variables estadísticas: Es cada una de las características o cualidades que poseen los individuos de
una población
A) Variables cualitativas: Se refieren a características o cualidades que no pueden ser medidas
con números. Podemos distinguir dos tipos
1) Nominal: No admiten un criterio de orden. Ejemplo: Estado civil (casado, soltero…)
2) Ordinal o variable cuasicuantitativa: Existe un orden. Ejemplo: Medallas (oro, plata,
bronce), nota en un examen (suspenso, aprobado, notable…), frecuencia de una
actividad...
B) Variable cuantitativa: Es la que se expresa mediante un número. Dos tipos:
1) Variable discreta: Es aquella que toma valores aislados, es decir, no admite valores
intermedios entre dos valores específicos. Ejemplo: Número de hermanos
2) Variable continua: Es aquella que puede tomar cualquier número comprendido entre
dos números (intervalo). Ejemplo: Altura (1.73, 1.69, 1.75)
Desde otro punto de vista, las variables pueden clasificarse atendiendo al número de observaciones
que se realizan en el mismo individuo. Así podemos encontrar
• Variables unidimensionales: Solamente se observa un dato (Ej: La altura de un deportista)
• Variables bidimensionales: Si se observan dos datos (Ej: La altura y el peso de un deportista)
3. Métodos de Estadística Descriptiva básica

La Estadística Descriptiva básica se ocupa del estudio de datos muestrales correspondientes a
variables uni y bidimensionales. Para su estudio se usan los siguientes métodos:
1. Tablas: Se construyen a partir de un listado exhaustivo de datos muestrales. Las tablas
pueden usarse con cualquier tipo de variables y permiten realizar un resumen inicial de la
información contenida en la muestra
2. Gráficos: Pueden construirse a partir de un listado exhaustivo de datos, o bien a partir de
tablas. Dependiendo del tipo de variable bajo estudio, puede varias el tipo de gráfico que
convenga usar
3. Estadísticos: Es cualquier función de los datos de una muestra cuantitativa
2
3.1 Tablas
A) Representación de tallo y hojas
Un método para iniciar el análisis exploratorio de los datos, previo al uso de los métodos
estadísticos tradicionales, y que además proporciona información rápida, visual es la representación
gráfica de tallo y hojas. Esta representación se basa en la ordenación de los datos a manera de
gráfico, pero sin llegar a ello, utilizando las decenas y las unidades.
Se usa cada uno de los datos separando las decenas de las unidades, es decir, el número 51 se verá
como 5 | 1.
Ejemplo que contiene las calificaciones obtenidas en una prueba de matemáticas:

78 93 61 100 70 83 88 74 97 72 66 73 76 81 83 64 91 70 77 86
La representación puede estar ordenada o no, en este caso la hacemos ordenada:
6|146
7|00234678
8|13368
9|137
10 | 0
En realidad una representación de tallo y hojas presenta la misma información que la lista original
de datos, pero de una manera mucho más compacta (especialmente si la lista de datos es más
grande) y manejable.
B) Tabla de frecuencias o distribución de frecuencias
Una tabla de frecuencias o distribución de frecuencias es una ordenación en forma de tabla de los
datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Frecuencia absoluta ( ni ): Es el número de veces que aparece un determinado valor en un estudio
estadístico
Frecuencia (absoluta) acumulada ( Ni ) : Es la suma de la frecuencias absolutas de todos los
valores inferiores o iguales al valor considerado
Frecuencia relativa ( fi ): Es el cociente entre la frecuencia absoluta de un determinado valor y el
número total de datos. Se puede expresar en tantos por ciento
Frecuencia relativa acumulada (Fi) : Es el cociente entre la frecuencia absoluta acumulada de un
determinado valor y el número total de datos. Se puede expresa en tantos por ciento
3
Este tipo de tablas de frecuencias se utilizan con variables discretas.
Ejemplo: Se considera un grupo de 34 alumnos de 1º año de la Escuela Politécnica, de los

cuales se enumeran las notas obtenidas en el 1º parcial de matemáticas del año 2016.
Datos: 9, 5, 7, 9, 8, 7, 9, 9, 9, 8, 7, 10, 9, 8, 3, 9, 8, 3, 7, 9, 10, 8, 5, 6, 3, 7, 9, 9, 8, 8, 9, 7, 9, 7.
Nota ni Ni fi Fi
3 3 3 0,088 (8,8%) 0,088
5 2 5 0,059 0,147
6 1 6 0,029 0,176
7 7 13 0,206 0,382
8 7 20 0,206 0,588
9 12 32 0,353 0,981
10 2 34 0,059 1,000
TOTAL 34 1,00
La tabla de distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las
variables toman un número grande de valores o la variable es continua
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada
clase se le asigna su frecuencia correspondiente
Clase: Es cada intervalo usado para agrupar los datos de la muestra. Cada clase está delimitada por
el límte inferior de la clase y el límite superior
• Amplitud de la clase: Es la diferencia entre el límite superior e inferior
• Límite real: El que se puede medir en la escala usada. Por ejemplo: Tenemos dos intervalos
60-62 y 63-65, con lo que 62.4 quedaría fuera, entonces el límite real para el primer
intervalo será [59.5 – 62.5)
Marca de clase ( ci ): Es el punto medio de la clase. Es el valor que representa a todo el intervalo
para el cálculo de algunos parámetros
C) Estadística descriptiva bidimensional o distribución bidimensional
Cuando tenemos dos variables podemos ordenar los datos en tablas de doble entrada cuando lo que
representamos son variables y tablas de contingencia cuando estudiamos dos caracteres cualitativos
4
Ejemplo: Relación entre paga y edad en un grupo de alumnos
PAGA (x) EDAD (y) TOTAL

16 17 18 19
5 1 1
6 3 3
8 1 1
9 5 2 7
10 3 1 4
12 3 3
15 1 2 1 4
20 2 2 4
25 1 1 2
30 1 1
TOTAL 14 9 4 3 30
En realidad lo que obtenemos son los valores de cada una de las variables independientemente de la
otra. A estos valores los llamamos distribuciones marginales de la variables estadísticas
Para tener la distribución marginal completa de la variable edad (y) tomamos la primera y la última
fila
Edad 16 17 18 19
Frecuencia 14 9 4 3
Igualmente para la variable paga (x) tomamos los datos de la primera y la última columna
De igual modo, los parámetros estadísticos bidimensionales los denominanos marginales (media
marginal de x o y, varianza marginal de x o y, etc...)
3.2 Gráficos
Pictogramas: Conjunto de gráficos de aspecto más o menos atractivo que sirven para trasmitir de
forma sencilla la información contenida en una muestra. Entre los pictogramas pueden incluirse los
gráficos de sectores o “tartas”. Se usan con las variables cualitativas nominales
Diagramas de barras: Se usa para variables cuantitativas discretas o variables cualitativas
ordinales. La altura de la barra es proporcional a la frecuencia del valor
Histograma: El más usado para describir variables cuantitativa continuas. El área de la barra es
proporcional a la frecuencia del valor
5
Gráficas de líneas: Consiste en la unión de una serie de puntos trazados en las intersecciones de las
marcas de clase y sus frecuencias. Se usa cuando existe una continuidad entre las observaciones
(crecimiento poblacional, evolución del peso a través del tiempo…). Ejemplo: El peso de Pedro y
Juan a lo largo de cinco años (Pedro será una línea y Juan otra)
Polígono de frecuencias: Parecido al anterior, la diferencia es que se añaden dos clases de
frecuencias cero: una antes de la primera clase con datos y otra después de la última
Polígono acumulativo (ojiva): Parecido al anterior, pero se aplica a las frecuencias acumulativas y
no tiene frecuencia cero al final. Se suele combinar con el histograma
Gráficos de caja: Gráficos muy simples que ayudan a comparar la dispersión de los datos
Diagrama de dispersión o nube de puntos: Es un gráfico bidimensional. Es un representación en
el sistema cartesiano (X,Y), de los valores observados de las variables, en el que a cada par (xi , yi)
se le asocia su frecuencia nij . Ejemplo: Peso y altura de un grupo de alumnos
3.3 Estadístico o estadígrafo

También llamados parámetros estadísticos o medidas numéricas descriptivas, es una medida usada
para describir alguna característica de la muestra y la toma de decisiones contiene un grade de
incertidumbre o error. Puede clasificarse en:
1. Estadísticos de tendencia central o de localización: Los más importantes son la media, la
moda y la mediana muestrales
2. Estadísticos de dispersión: Los más importantes son la varianza y la desviación típica
muestrales, también el coeficiente de variación y el rango o recorrido
3. Estadísticos de posición: Los más importantes son los cuantiles muestrales y sus variantes:
deciles, cuartiles y percentiles
6
MEDIDAS DE TENDENCIA CENTRAL
MODA (Mo): Es el valor que tiene mayor frecuencia absoluta
MEDIANA (Me): Es el valor que ocupa el lugar central de los datos ordenados de menor a mayor
MEDIA ARITMETICA (X) o (A): Es el valor obtenido al sumar todos los datos y dividir por el
número total N
n
∑ xi a1+ a2 +… an
X̄= i=1 =
N N
1. La suma de las desviaciones de los valores de la variable respecto a su media es 0
2. Si a todos los valores de la variable les sumamos (o multiplicamos) una constante k, la
media aritmética queda aumentada (o multiplicada) en esa constante
3. Si a una variable X le efectuamos una transformación lineal de la forma Y = aX + b con a y
b constantes, la media de la nueva variable queda afectada por dicha transformación lineal.
Esto se demuestra por la propiedad anterior
Ventajas e inconvenientes:
Como ventajas de utilizar la media aritmética como un promedio para sintetizar los valores de la
variable podemos citar las siguientes:
• Considera todos los valores de la distribución.
• Es siempre calculable (en variable cuantitativa).
• Es única.
Como inconvenientes de la utilización de la media aritmética cabe citar que, a veces, puede dar
lugar a conclusiones erróneas, cuando la variable presenta valores muy extremos, que influyen
mucho en la media, haciéndola poco representativa.
Media aritmética ponderada: Se calcula esta media aritmética cuando cada valor de la variable
tiene asociado una ponderación o un peso, distinto de la frecuencia, y que le haga tener más o
menos importancia en la distribución.
En este caso si el dato xi tiene un peso wi, su media ponderada sería:
n
∑ xi· w i
x¯p= i=1n
∑ wi
i=1
Media recortada: Es más “resistente”. Se recorta un % de los valores extremos inferiores y

superiores
Sesgo: Cuando no es simétrica y se extiende más a un lado que a otro. Ej: Sesgo a la izquierda →
La media y la mediana están a la izquierda de la moda (ver coeficientes de asimetría)
7
MEDIA CUADRÁTICA (Q) o CMR (Cuadrado medio de raíz): Se usa para física (voltajes,
corrientes)
X̄ =
√a21 +a 22+…a 2n
N
MEDIA GEOMÉTRICA (G): Se usa para tasas promedio (economía)
n 1
X̄=( ∏ x1 ) =√n a1 · a 2 ·…a n
n
i=1
La media geométrica tiene una ventaja sobre la media aritmética y es que es menos sensible a los
valores extremos.
Como inconvenientes principales señalar que tiene un significado estadístico menos intuitivo que la
media aritmética, su cálculo es difícil y no se puede calcular si un valor de la variable es 0.
MEDIA ARMÓNICA (H): Se suele utilizar para promediar velocidades, tiempos, etc.
n −1
X̄=N ·
( )
∑
i=1
1
xi
=
1 1
N
+ +…
1
a 1 a2 an
Como ventajas podemos mencionar que intervienen todos los valores de la variable y que, en ciertos
casos, es más representativa que la media aritmética.
Como inconvenientes hay que citar la gran influencia de los valores pequeños y que a veces no se
puede calcular (si un valor de la variable es 0).
Relación entre las medias
p p 1/p
M p= (
x1 + ⋯ + xn
n )
Siendo M1 la media aritmética, M2 la media cuadrática y M-1 la media armónica
Q≥ A≥G≥H
MEDIDAS DE POSICIÓN NO CENTRALES o RELATIVAS

CUARTILES: Son los valores que dividen a un conjunto de datos ordenado en cuatro partes
iguales. Q1 = 25%, Q2 = 50% (mediana), Q3 = 75%, Q4 = 100%
K·N
POSICION (del valor x) = K = 1,2,3 Lo mismo para deciles (dividimos por 10),
4
percentiles..
n de valores menores que x
Percentil del valor x = ·100
n total de valores
8
k·N
−FQ −1
4 k
Con frecuencias Qk =Li + · a Siendo Li el límite inferior de la clase donde se

fQ k
encuentra el cuartil, F la frecuencia acumulada anterior a la clase del cuartil, N es la suma total de
frecuencias, f la frecuencia absoluta, a es la amplitud de la clase
DIAGRAMA DE CAJA o GRAFICA DE CUADRO
Es una representación de distribuciones estadísticas en la que el 50% de los valores centrales se
destacan mediante un rectángulo (caja) y los valores extremos (el 25% de los menores y el 25% de
los mayores( se representan mediante segmentos llamados bigotes).
Los puntos que separan los cuatro trozos son los cuartiles y la mediana.
MEDIDAS DE DISPERSIÓN o VARIACIÓN

RANGO o RECORRIDO: Es la diferencia entre el mayor y el menor de los datos
DESVIACION MEDIA (Dx): Es la media aritmética de los valores absolutos de las desviaciones
respecto a la media. También se le conoce como MAD o DMA (absoluta).
Usa valores que no valen para la estadística inferencial. No tiene propiedades algebraicas, es decir,
que le afecta la suma o multiplicación de un número en todos sus valores. Está sesgado
n
∑|xi − x̄|
i=1
Dx =
N
(N) POBLACIÓN → Usamos letras griegas ( σ , μ …) Son parámetros
(n) MUESTRA → Usamos letras romanas ( s, x̄ ) Son estadísticos
VARIANZA o VAR (σ2): Tiene propiedades algebraicas como la media, pero tiene la desventaja de
que sus unidades son distintas del conjunto original de datos al estar elevadas al cuadrado
n
∑ ( x 1−μ )2
σ2 = i=1 Para población
N
9
n
∑ ( x 1− x̄ )2
s 2= i=1 Para muestras
n−1
DESVIACIÓN TÍPICA o ESTANDAR (σ) (SD): Es la raíz cuadrada de la varianza. Nunca es
negativa. μ ±2 σ Serían los valores comunes
Para calcularlo con frecuencias sería
s=
√
n[Σ (f · x2 )]−[Σ(f · x )]2
n(n−1)
f: frecuencia x: marca de clase
TEOREMA DE CHEBYSHEV
μ ±2 σ > 75% de los valores
μ ±3 σ > 89% de los valores
Es parecida a la regla empírica (68 – 95 – 99.7) pero para cualquier tipo de distribución, no sólo
normal
CORRECCIÓN DE SHEPPARD PARA LA VARIANZA

El cálculo de la desviación estándar es algo erróneo como resultado del agrupamiento de datos en
clases (error de agrupamiento). Para corregirlo, se usa la fórmula:
c2
Varianza corregida = varianza de los datos agrupados −
12
donde c es la anchura del intervalo de clase. La corrección c2 / 12 (que se resta) se llama corrección
de Sheppard. Se usa para distribuciones de variables continuas donde las «colas» van gradualmente
hacia cero en ambas direcciones.
Los estadísticos difieren respecto de cuándo y dónde debe aplicarse la corrección. Ciertamente no
debe aplicarse antes de examinar cuidadosamente la situación, pues a menudo tiende a
sobrecorregir, con lo que sustituye un error por otro.
COEFICIENTE DE VARIACION (C.V.) (DE PEARSON)

C . V .= σ El valor de CV se multiplica por 100 para trabajar en porcentajes
x̄
Diremos que la dispersión es elevada cuando el CV sea superior al 30%
El valor de la CV no depende de la unidad de medida usada, luego es adimensional.
Nos sirve para comparar la variación en distintas poblaciones, por ejemplo: peso y altura
10
BIDIMENSIONALES
COVARIANZA (σXY)
σ xy =
∑ ( x i− x̄ )·( yi − ȳ) ⇔ σ =
∑ (x i · y i )− x̄ · ȳ
xy
N N
Su valor depende de la escala (magnitud)
Si es > 0 es DIRECTA, si es < 0 es INVERSA
COEFICIENTE DE CORRELACION LINEAL O COEFICIENTE DE PEARSON (r):
Determina el grado de dependencia lineal entre las variables x e y
σ xy
r= Siempre toma valores entre -1 (inversa) y 1 (directa)
σx · σ y
Si r = 0, no existe correlación lineal (independencia), si r=1 o r=-1 existe dependencia lineal directa
El valor de r no se ve afectado por la elección de x o y
Su signo es igual que el de la covarianza, no varía al cambiar la escala
COEFICIENTE DE DETERMINACION (r2): Es el cuadrado del coeficiente de correlación, su

valor oscila entre 0 y 1. Es la proporción de la variación de y que está explicada por la correlación
RECTA DE REGRESION LINEAL o recta de mínimos cuadrados: Es la recta que mejor se

ajusta a la nube de puntos. La recta de regresión pasa por el punto (x,y) llamado centro de
gravedad o centroide
σ xy
Recta de regresión Y sobre X y− ȳ= ·( x− x̄)
σ 2x
σ xy
Recta de regresión X sobre Y x− x̄= ·( y− ȳ )
σ 2y
PENDIENTE = COEFICIENTE DE REGRESION (m)

mx · my = r2
11
MATRIZ DE COVARIANZAS: Es una matriz cuadrada que tiene en su diagonal principal las
varianzas de cada una de las distribuciones marginales unidimensionales y en sus elemento no
diagonales las correspondientes covarianzas entre cada dos variables Sijb
1. Es simétrica respecto a su diagonal principal
2. Es definida positiva
3. El determinante de la matriz (determinante de momentos) es siempre no-negativo, L mayor
o igual a 0
4. En el caso bidimensional tendremos det V = L = S 2x · S 2y −(S xy )2
( )
S21 S12 … S1 x
2
V = S 21 S 2 … …
… … … …
S x1 S x 2 … S 22
Momentos: Existen dos tipos de momentos:

1. Momentos centrales (respecto a la media aritmética): Se define el momento central de
orden r respecto de la media aritmética x como la media aritmética de las potencias de orden
r de las desviaciones de los datos respecto de la media:
k
fi
mr=∑ (x i−⃗x )r ·
i=1 n
En particular, se verifica que:
- El momento central de orden 0 vale 1

- El momento central de orden 1 vale 0
- El momento de orden 2 es la varianza.
2. Momentos con respecto al origen: Se define el momento de orden r con respecto al origen
como la media aritmética de las potencias de orden r de los datos de la variable:
k
fi
ar =∑ x ri ·
i=1 n
Como casos particulares cabe destacar:

- El momento de orden 0 vale 1:
- El momento de orden 1 es la media aritmética
Existe una relación entre los dos momentos, que nos da una forma reducida de
calcular la varianza:
σ 2=m 2=a 2−a21
12
Medidas de forma
Para tratar de conocer una distribución no basta con conocer sus medidas de dispersión y de
posición, sino que es necesario, en general, conocer algunos aspectos más de la misma.
Dado que la diversidad de comportamientos de las xi de la distribución se hacía más patente al
realizar la representación gráfica, vamos a tratar de determinar a continuación más medidas, según
la "forma" de la representación; clasificaremos estas medidas en dos grupos: medidas de asimetría y
medidas de curtosis o apuntamiento.
Medidas de asimetría
Tienen por objeto establecer el grado de simetría (o asimetría) de una distribución sin necesidad de
realizar la representación gráfica.
Entenderemos la simetría respecto al eje determinado por la media aritmética, de tal forma que
diremos que una distribución es simétrica cuando los valores de la variable equidistantes de este
valor central tengan la misma frecuencia, en caso contrario diremos que es asimétrica, siendo esta
asimetría negativa o a izquierda si es más larga la rama de la izquierda, es decir, las frecuencias
descienden más lentamente por la izquierda que por la derecha; análogamente llamaremos asimetría
positiva o a derechas aquella en que la rama de la derecha es más larga, es decir las frecuencias
descienden más lentamente por la derecha que por la izquierda.
COEFICIENTE DE ASIMETRÍA DE FISHER
Debemos buscar ahora una medida adimensional que recoja las desviaciones positivas y negativas
de los valores respecto de la media.
La figura nos muestra las distintas distribuciones:
k
fi
Dado que m1=∑ ( x i−⃗x )· =0
i=1 n
k
fi
hay que buscar una medida que venga influida por el signo; ésta será: m3=∑ ( xi−⃗x )3 ·
i=1 n
13
ya que
• si la curva es simétrica m3 = 0
• si la curva tiene asimetría positiva o a derechas, m3 > 0
• si la curva tiene asimetría negativa o a izquierdas, m3 < 0
Para que no tenga dimensión debemos dividirla por una medida con las mismas unidades (cúbicas),
obteniéndose el coeficiente de asimetría de Fisher.
k
f
m3
∑ (x i−⃗x )3 · ni
i=1
g1 = = 3
s3
[ ]
k
f 2
∑ ( x i−⃗x ) · ni
2
i=1
Siendo su interpretación:
• Si g1 > 0 la distribución es asimétrica positiva o a derecha.
• Si g1 = 0 la distribución es simétrica.
• Si g1 < 0 la distribución es asimétrica negativa o a izquierda.
COEFICIENTE DE ASIMETRÍA DE PEARSON
Otra medida de asimetría es el coeficiente de asimetría de Pearson definido por:
⃗x −M o
A p=
s
Teniendo en cuenta que si la curva es simétrica, x = Me = Mo, si la distribución es asimétrica

positiva o a derechas x > Mo y si la distribución es asimétrica negativa o a izquierdas x < Mo, su
interpretación será:
• Ap = 0 la distribución es simétrica.
• Ap > 0 la distribución es asimétrica positiva (derechas)
• Ap < 0 la distribuciones asimétrica negativa (izquierdas)
Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por ello Pearson
demostró empíricamente que ⃗x −M o≈3(⃗x −M e )
Medidas de curtosis o apuntamiento

Estas medidas, aplicadas a distribuciones unimodales simétricas o con ligera asimetría, tratan de
estudiar la distribución de frecuencias en la zona central, dando lugar a distribuciones muy
apuntadas, o poco apuntadas.
Para estudiar el apuntamiento, debemos hacer referencia a una distribución tipo que consideraremos
la distribución "Normal"; ésta corresponde a fenómenos muy corrientes en la naturaleza cuya
representación gráfica es la campana de Gauss.
14
Si una distribución tiene mayor apuntamiento que la normal diremos que es "leptocúrtica", si tiene
menor apuntamiento que la normal la llamaremos "platicúrtica", y a las que tengan igual
apuntamiento que la normal las llamaremos "mesocúrticas".
Veamos esto en las siguientes figuras:
En la distribución normal m4 = 3·s4, por lo tanto utilizaremos como coeficiente de apuntamiento o

curtosis.
k
f
m4
∑ (xi −⃗x )4 · ni
i=1
g2 = = 2
s4
[ ]
k
f
∑ (x i−⃗x ) · ni
2
i=1
siendo la interpretación la siguiente:
• Si g2 > 3 la curva es más apuntada que la normal (leptocúrtica).

• Si g2 = 3 la curva tiene el mismo apuntamiento que la normal (mesocúrtica).
• Si g2 < 3 la curva es menos apuntada que la normal (platicúrtica).
m4
A veces se utiliza como coeficiente de curtosis: g2= −3
s4
y la comparación será con 0, obteniéndose:

• g2 = 0 (mesocúrtica).
• g2 > 0 (leptocúrtica).
• g2 < 0 (platicúrtica)
NOTA: El cálculo de m3 y m4 es más práctico utilizando las fórmulas:
m3=a3 −3 a2 a1 +2 a31 Siendo a1=⃗

x
m4=a4 −4 a3 a1+ 6 a2 a21−3 a14
15

Estadística descriptiva: introducción, variables, tablas y gráficos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadística descriptiva: introducción, variables, tablas y gráficos

Uploaded by

Copyright:

Available Formats

TEMA 8

• Variables bidimensionales: Si se observan dos datos (Ej: La altura y el peso de un deportista)

3. Métodos de Estadística Descriptiva básica

Ejemplo que contiene las calificaciones obtenidas en una prueba de matemáticas:

Ejemplo: Se considera un grupo de 34 alumnos de 1º año de la Escuela Politécnica, de los

PAGA (x) EDAD (y) TOTAL

3.3 Estadístico o estadígrafo

Media recortada: Es más “resistente”. Se recorta un % de los valores extremos inferiores y

Relación entre las medias

MEDIDAS DE POSICIÓN NO CENTRALES o RELATIVAS

Con frecuencias Qk =Li + · a Siendo Li el límite inferior de la clase donde se

MEDIDAS DE DISPERSIÓN o VARIACIÓN

μ ±2 σ > 75% de los valores

μ ±3 σ > 89% de los valores

CORRECCIÓN DE SHEPPARD PARA LA VARIANZA

COEFICIENTE DE VARIACION (C.V.) (DE PEARSON)

COEFICIENTE DE DETERMINACION (r2): Es el cuadrado del coeficiente de correlación, su

RECTA DE REGRESION LINEAL o recta de mínimos cuadrados: Es la recta que mejor se

PENDIENTE = COEFICIENTE DE REGRESION (m)

4. En el caso bidimensional tendremos det V = L = S 2x · S 2y −(S xy )2

Momentos: Existen dos tipos de momentos:

- El momento central de orden 0 vale 1

Como casos particulares cabe destacar:

σ 2=m 2=a 2−a21

COEFICIENTE DE ASIMETRÍA DE FISHER

COEFICIENTE DE ASIMETRÍA DE PEARSON

Otra medida de asimetría es el coeficiente de asimetría de Pearson definido por:

Teniendo en cuenta que si la curva es simétrica, x = Me = Mo, si la distribución es asimétrica

Medidas de curtosis o apuntamiento

En la distribución normal m4 = 3·s4, por lo tanto utilizaremos como coeficiente de apuntamiento o

siendo la interpretación la siguiente:

• Si g2 > 3 la curva es más apuntada que la normal (leptocúrtica).

y la comparación será con 0, obteniéndose:

NOTA: El cálculo de m3 y m4 es más práctico utilizando las fórmulas:

m3=a3 −3 a2 a1 +2 a31 Siendo a1=⃗

You might also like