You are on page 1of 19

Estadstica

Tema 1: Introduccin a la estadstica

Tema 1: Introducin

Para qu sirve la estadstica?

La Ciencia se ocupa en general de fenmenos observables

La Ciencia se desarrolla observando hechos, formulando leyes que


los explican y realizando experimentos para validar o rechazar
dichas leyes

Los modelos que crea la ciencia son de tipo determinista o aleatorio


(estocstico)

La Estadstica se utiliza como tecnologa al servicio de las


ciencias donde la variabilidad y la incertidumbre forman parte de su
naturaleza

La Bioestadstica [...] ensea y ayuda a investigar en todas las


reas de las Ciencias de la Vida donde la variablidad no es la
excepcin sino la regla
Carrasco de la Pea (1982)

Definicin
La Estadstica es la Ciencia de la

Sistematizacin, recogida, ordenacin y


presentacin de los datos referentes a un
fenmeno que presenta variabilidad o
incertidumbre para su estudio metdico, con
objeto de
deducir las leyes que rigen esos fenmenos,

y poder de esa forma hacer previsiones sobre


los mismos, tomar decisiones u obtener
conclusiones.

Pasos en un estudio estadstico

Plantear hiptesis sobre una poblacin

Decidir qu datos recoger (diseo de experimentos)

Qu individuos pertenecern al estudio (muestras)

Estratificado? Sistemticamente?

Describir (resumir) los datos obtenidos

tiempo medio de baja en fumadores y no (estadsticos)


% de bajas por fumadores y sexo (frecuencias), grficos,...

No tenis que
entenderlo (an)

Realizar una inferencia sobre la poblacin

Nmero de bajas
Tiempo de duracin de cada baja
Sexo? Sector laboral? Otros factores?

Recoger los datos (muestreo)

Fumadores y no fumadores en edad laboral.


Criterios de exclusin Cmo se eligen? Descartamos los que padecen enfermedades crnicas?

Qu datos recoger de los mismos (variables)

Los fumadores tienen ms bajas laborales que los no fumadores


En qu sentido? Mayor nmero? Tiempo medio?

Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores.

Cuantificar la confianza en la inferencia

Nivel de confianza del 95%


Significacin del contraste: p=2%

Mtodo cientfico y estadstica

Plantear
hiptesis

Disear
experimento

Obtener
conclusiones

Recoger datos
y analizarlos

Poblacin y muestra

Poblacin (population) es el conjunto sobre el que estamos


interesados en obtener conclusiones (hacer inferencia).
Normalmente es demasiado grande para poder
abarcarlo.

Muestra (sample) es un subconjunto suyo al que tenemos


acceso y sobre el que realmente hacemos las observaciones
(mediciones)
Debera ser representativo
Esta formado por miembros seleccionados de la
poblacin (individuos, unidades experimentales).

Variables

Una variable es una caracterstica observable que vara entre


los diferentes individuos de una poblacin. La informacin que
disponemos de cada individuo es resumida en variables.

En los individuos de la poblacin espaola, de uno a


otro es variable:

El grupo sanguneo

Su nivel de felicidad declarado

{Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal

El nmero de hijos

{A, B, AB, O} Var. Cualitativa

{0,1,2,3,...} Var. Numrica discreta

La altura

{162 ; 174; ...} Var. Numrica continua

Tipos de variables

Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
nmero (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar

Ordinales: Si sus valores se pueden ordenar

Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones
algebraicas con ellos)

Discretas: Si toma valores enteros

Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.

Altura, Presin intraocular, Dosis de medicamento administrado, edad

Es buena idea codificar las variables como


nmeros para poder procesarlas con
facilidad en un ordenador.
Es conveniente asignar etiquetas a los
valores de las variables para recordar qu
significan los cdigos numricos.

Sexo (Cualit: Cdigos arbitrarios)

Raza (Cualit: Cdigos arbitrarios)

1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz

Se pueden asignar cdigos a respuestas


especiales como

1 = Blanca
2 = Negra,...

Felicidad Ordinal: Respetar un orden al


codificar.

1 = Hombre
2 = Mujer

0 = No sabe
99 = No contesta...

Estas situaciones debern ser tenidas en


cuentas en el anlisis. Datos perdidos
(missing data)

Aunque se codifiquen como nmeros, debemos recordar


siempre el verdadero tipo de las variables y su significado
cuando vayamos a usar programas de clculo estadstico.
No todo est permitido con cualquier tipo de variable.

Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos)

Edades:

Hijos:

Menos de 20 aos, de 20 a 50 aos, ms de 50 aos


Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Las modalidades/clases deben forman un sistema exhaustivo y excluyente

Exhaustivo: No podemos olvidar ningn posible valor de la variable

Mal: Cul es su color del pelo: (Rubio, Moreno)?


Bien: Cul es su grupo sanguneo?

Excluyente: Nadie puede presentar dos valores


simultneos de la variable

Estudio sobre el ocio


Mal: De los siguientes, qu le gusta: (deporte, cine)
Bien: Le gusta el deporte: (S, No)
Bien: Le gusta el cine: (S, No)
Mal: Cuntos hijos tiene: (Ninguno, Menos de 5, Ms de 2)

Presentacin ordenada de datos


7
6

Gnero

Frec.

Hombre

5
4
3
2

Mujer

1
0
Hombre

Mujer

Las tablas de frecuencias y las representaciones


grficas son dos maneras equivalentes de presentar la
informacin. Las dos exponen ordenadamente la
informacin recogida en una muestra.

Tablas de frecuencia

Exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin


(o poca).

Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas

Muy tiles para calcular cuantiles (ver ms adelante)

Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8


Entre 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%. Soluc 2: 97,3% - 83,8% = 13,5%

Sexo del encuestado

Vlidos Hombre
Mujer
Total

Frecuencia
636
881
1517

Porcentaje
41,9
58,1
100,0

Nmero de hij os
Porcentaje
vlido
41,9
Vlidos
58,1
100,0

Niv el de felicidad

Vlidos

Perdidos
Total

Frecuencia
Muy feliz
467
Bastante feliz
872
No demasiado feliz
165
Total
1504
No contesta
13
1517

Porcentaje
30,8
57,5
10,9
99,1
,9
100,0

Porcentaje
vlido
31,1
58,0
11,0
100,0

Porcentaje
acumulado
31,1
89,0
100,0

Perdidos
Total

0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta

Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517

Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0

Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

Datos desordenados y ordenados en tablas

Variable: Gnero

Modalidades:

H = Hombre
M = Mujer

Muestra:
MHHMMHMMMH

equivale a
HHHH MMMMMM

Gner Frec.
o

Frec. relat.
porcentaje

Homb
re

4/10=0,4=40%

Mujer

6/10=0,6=60%

10=tama
o
muestral

Ejemplo

frec. indiv. sin hijos


+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos

Qu porcentaje de individuos
tiene 6 hijos o menos?

Nmero de hij os

Cuntos individuos tienen


menos de 2 hijos?

97,3%

Qu cantidad de hijos es tal


que al menos el 50% de la
poblacin tiene una cantidad
inferior o igual?

2 hijos

0
1
2
3
4
5
6
7
Ocho+
Total

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

50%

Grficos para v. cualitativas

Diagramas de barras

Diagramas de sectores (circulares, polares)

Alturas proporcionales a las frecuencias (abs. o rel.)


Se pueden aplicar tambin a variables discretas

No usarlo con variables ordinales.


El rea de cada sector es proporcional a su frecuencia
(abs. o rel.)

Pictogramas

Fciles de entender.
El rea de cada modalidad debe ser proporcional a la
frecuencia. De los dos, cul es incorrecto?.

Grficos diferenciales para variables numricas


419
400

375

Son diferentes en funcin de


que las variables sean discretas
o continuas. Valen con frec.
absolutas o relativas.

255
215

200

127

100

54
24

23

17

7 Ocho o ms

Nme ro de hijos

Diagramas barras para v.


discretas
250

Se deja un hueco entre barras


para indicar los valores que no son
posibles
200

Recuento

Recuento

300

150

100

Histogramas para v. continuas

50

El rea que hay bajo el histograma


entre dos puntos cualesquiera
indica la cantidad (porcentaje o
frecuencia) de individuos en el
intervalo.

20

40

60

Edad del encue stado

80

Diagramas integrales

Cada uno de los anteriores diagramas tiene su correspondiente diagrama


integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada
valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor
inferior o igual al mismo. No los construiremos en clase. Se pasan de los
diferenciales a los integrales por integracin y a la inversa por derivacin (en un
sentido ms general del que visteis en bachillerato.)

Qu hemos visto?

Definicin de estadstica
Poblacin
Muestra
Variables

Cualitativas
Numricas

Presentacin ordenada de
datos

Tablas de frecuencias

absolutas
relativas
acumuladas

Representaciones grficas

Cualitativas
Numricas

Diferenciales
Integrales

You might also like