You are on page 1of 35

Tema 1: Introduccin a la estadstica

Tema 1: Introducin

Para qu sirve la estadstica?


La Ciencia se ocupa en general de fenmenos observables La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocstico)

La Estadstica se utiliza como tecnologa al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza
La Bioestadstica [...] ensea y ayuda a investigar en todas las reas de las Ciencias de la Vida donde la variablidad no es la excepcin sino la regla Carrasco de la Pea (1982)

Tema 1: Introducin

Definicin
La Estadstica es la Ciencia de la

Sistematizacin, recogida, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de
deducir las leyes que rigen esos fenmenos,

y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

Tema 1: Introducin

Pasos en un estudio estadstico (y cientfico)

Plantear hiptesis sobre una poblacin


Los fumadores tienen ms bajas laborales que los no fumadores En qu sentido? Mayor nmero? Tiempo medio?

Decidir qu datos recoger (diseo de experimentos)

Qu individuos pertenecern al estudio (muestras)


Fumadores y no fumadores en edad laboral. Criterios de exclusin Cmo se eligen? Descartamos los que padecen enfermedades crnicas? Nmero de bajas Tiempo de duracin de cada baja Sexo? Sector laboral? Otros factores?

Qu datos recoger de los mismos (variables)


Recoger los datos (muestreo)

Estratificado? Sistemticamente?

No tenis que entenderlo (an)

Describir (resumir) los datos obtenidos


tiempo medio de baja en fumadores y no (estadsticos) % de bajas por fumadores y sexo (frecuencias), grficos,...

Realizar una inferencia sobre la poblacin

Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores.

Cuantificar la confianza en la inferencia


Nivel de confianza del 95% Significacin del contraste: p=2% Tema 1: Introducin 4

Prctica 1: Pasos del proceso de investigacin

Lee el siguiente resumen de investigacin e identifica las hiptesis, las caractersticas de la muestra, cmo ha sido seleccionada, las variables, falta alguna variable que tu consideres importante?, qu resultados muestran, qu te parece el problema y su resolucin

Un gabinete de Logopedia est interesado en conocer cul sera el programa ms eficiente para el tratamiento de la disfasia. La discusin se centra en ofrecer programas centrados exclusivamente en la rehabilitacin del habla (Programa A) o en ofrecer programas que tambin incluyan el tratamiento psicolgico y que incluyan ayudas procedentes del contexto (como por ejemplo, pautar la velocidad del habla del entorno familiar cercano) (Programa B). Se piensa tambin que la edad de los pacientes es un factor importante. Atendiendo al pblico que acude a su gabinete, centran la investigacin en sujetos de seis a ocho aos. Se oferta a las familias que acuden durante el mes de octubre al gabinete la posibilidad de participar en la investigacin, que durar tres meses. Sin embargo, los sujetos son asignados aleatoriamente a cada uno de los programas previstos. Los programas A y B sern desarrollados por dos logopedas expertos en cada uno de ellos. Se consigue finalmente una muestra de 16 pacientes. Como se considera que el nivel de afectacin de la disfasia puede ser un factor importante para valorar el progreso de cada paciente, se valorar a cada uno de ellos inicialmente. Pasados los 3 meses, todos los pacientes sern evaluados con la misma prueba, aplicada de forma individual a cada uno de ellos por su terapeuta, valorando en nivel de progreso con respecto al nivel inicial. Los resultados muestran que los mayores progresos se presentan con el Programa B para los sujetos de 6 a 8 aos, aunque para los sujetos con un alto grado de afectacin el Programa A se muestra igualmente efectivo que el Programa B. Tambin es cierto que el Programa B supone un mayor nmero de sesiones y, por tanto, un mayor coste econmico por paciente. Al valorar todas estas cuestiones, el gabinete concluye que aplicaran como protocolo estndar el programa A.

Tema 1: Introducin

Mtodo cientfico y estadstica


Plantear hiptesis Disear la investigacin

PROBLEMA

Obtener conclusiones

Recoger datos y analizarlos

Preguntas

Contraste

Soluciones tentativas

Tema 1: Introducin

Diseos de investigacin
Qu es un diseo de investigacin? Es el plan, la estructura y la estrategia de investigacin, concebida de tal forma que permita obtener respuestas a las cuestiones objeto de estudio (Kerlinger) Para realizar el CONTROL EXPERIMENTAL, asegurarnos que las variaciones observadas SLO se puedan atribuir a las variables de la investigacin. QU = Hiptesis y variables QUIN = Poblacin y muestra Elementos

Para qu sirve?

CON QU = Instrumentos de recogida de informacin


CUNDO = Planificacin del trabajo de campo CMO = Plan de anlisis de la informacin (de datos) CON QUIN = Equipo investigador
Tema 1: Introducin 7

Prctica 2: Lecturas de informes de investigacin

Lee los tres documentos que aparecen recogidos en material primeras clases.doc. Identifica el objetivo principal de cada investigacin. Seala las caractersticas principales de cada diseo. Compara las caractersticas de los tres y trata de dar un nombre tcnico al tipo de investigacin presentado. Valora las conclusiones (adecuadas, sobrepasan el objetivo, no son cientficas).
Tema 1: Introducin 8

Algunos conceptos preliminares sobre diseos

Tema 1: Introducin

Poblacin y muestra

Poblacin (population) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo.

Muestra (sample) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales).

Tema 1: Introducin

10

Variables

Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin. La informacin que disponemos de cada individuo es resumida en variables. Se puede manipular, medir o controlar.

En los individuos de la poblacin espaola, de uno a otro es variable:


El grupo sanguneo

{A, B, AB, O} Var. Cualitativa {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal {0,1,2,3,...} Var. Numrica discreta {162 ; 174; ...} Var. Numrica continua

Su nivel de felicidad declarado

El nmero de hijos

La altura

Tema 1: Introducin

11

Tipos de variables (criterio de medida)

Cualitativas Si sus valores (niveles) no se pueden asociar naturalmente a un nmero (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar

Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Ordinales: Si sus valores se pueden ordenar

Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas Si sus valores son numricos (tiene sentido hacer operaciones algebraicas con ellos)

Discretas: Si toma valores enteros

Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.

Altura, Presin intraocular, Dosis de medicamento administrado, edad


Tema 1: Introducin 12

Escalas de medida (medir es asignar nmeros a objetos o


acontecimientos)

Nominal: Si sus valores no se pueden ordenar

Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Ordinales: Si sus valores se pueden ordenar

Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor, rendimiento..

Intervalos: Si sus valores son numricos y la unidad de medida es constante

CI, rendimiento o cualquier otra variable (medido con test), temperatura

De razones: Si sus valores son numricos y la unidad de

medida es constante y adems existe el cero absoluto

Altura, Presin intraocular, Dosis de medicamento administrado, edad, dinero

Tema 1: Introducin

13

Ejercicio: Clasificacin de variables


Clasifica las siguientes variables: Nmero de libros en casa Nivel socio-cultural (alto, medio y bajo) Rendimiento (apto/no apto) Equipo de ftbol Nivel socio-cultural (ingresos familiares al mes)

Programa de enseanza de la lectura (globalizado o silbico)


Alguna otra que creas interesante
Tema 1: Introducin 14

Tipos de variables (criterio metodolgico)

V. Independientes Es una variable que funciona como un estmulo para provocar cambios (se suele identificar tambin con el agente o con la causa). V. Dependientes Es la variable dnde se observan los cambios, es el objeto de inters de la investigacin, pues es la respuesta de los sujetos. V. Intervinientes Son variables que afectan a la dependiente, pero que no producen cambios que nos interesen. Si se incluyen en el diseo se denominan V. de Control y si no se incluyen V. Extraas.
Tema 1: Introducin 15

Funcin de los diseos


Para qu sirven los diseos de investigacin?

Para realizar el CONTROL EXPERIMENTAL, asegurarnos que las variaciones observadas SLO se puedan atribuir a las variables de la investigacin.

Para realizar el CONTROL EXPERIMENTAL, asegurarnos que las variaciones observadas en la V. Dependiente SLO se puedan atribuir a la accin de la(s) variable(s) independientes.

Tema 1: Introducin

16

Ejercicio: Ms clasificacin de variables


Ahora clasifica las variables de la prctica 1 y del ejemplo de los fumadores atendiendo al criterio metodolgico

Tema 1: Introducin

17

Es buena idea codificar las variables como nmeros para poder procesarlas con facilidad en un ordenador. Es conveniente asignar etiquetas a los valores de las variables para recordar qu significan los cdigos numricos.

Sexo (Cualit: Cdigos arbitrarios)


1 = Hombre 2 = Mujer

Raza (Cualit: Cdigos arbitrarios)

1 = Blanca 2 = Negra,...

Felicidad Ordinal: Respetar un orden al codificar.


1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz

Se pueden asignar cdigos a respuestas especiales como


0 = No sabe 99 = No contesta...

Estas situaciones debern ser tenidas en cuentas en el anlisis. Datos perdidos (missing data)

Tema 1: Introducin

18

Aunque se codifiquen como nmeros, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de clculo estadstico. No todo est permitido con cualquier tipo de variable.

Tema 1: Introducin

19

Los posibles valores de una variable suelen denominarse niveles. Las niveles, si hace falta, pueden agruparse en intervalos Edades:

Menos de 20 aos, de 20 a 50 aos, ms de 50 aos Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Hijos:

Los niveles deben forman un sistema exhaustivo y excluyente Exhaustivo: No podemos olvidar ningn posible valor de la variable

Mal: Cul es su color del pelo: (Rubio, Moreno)? Bien: Cul es su grupo sanguneo?

Excluyente: Nadie puede presentar dos valores simultneos de la variable

Estudio sobre el ocio


Mal: De los siguientes, qu le gusta: (deporte, cine) Bien: Le gusta el deporte: (S, No) Bien: Le gusta el cine: (S, No) Mal: Cuntos hijos tiene: (Ninguno, Menos de 5, Ms de 2)
Tema 1: Introducin 20

Prctica 3: Diseo de una base de datos con Excel

Se te van a presentar un conjunto de preguntas procedentes de un cuestionario. Cada una de estas preguntas constituye una variable. El paso previo a la introduccin de los datos es la codificacin (= determinar los valores de cada uno de los niveles de cada variable). Realiza pues la codificacin de estas variables.
21

Tema 1: Introducin

Prctica 3: Diseo de una base de datos con Excel


EVALUACIN DE NECESIDADES FORMATIVAS DEL PROFESORADO NO UNIVERSITARIO DE LA C.M.
1. Seala el grupo de edad al que perteneces: Menos de 30 aos Entre 30 y 40 Entre 41 y 50 Entre 51 y 60 Ms de 60 2. Gnero: Hombre Mujer 3. Marca todos los niveles en los que actualmente impartes docencia (puedes marcar ms de una opcin): Educacin Infantil Educacin Primaria Educacin Secundaria Obligatoria Bachillerato Formacin Profesional
4. Desde el punto de vista administrativo o laboral, tu puesto de trabajo o plaza es: Temporal, provisional, parcial, interinidad, o inestable Definitiva o estable 5. Indica la zona de la Comunidad Autnoma de Madrid en la que se encuentra el Centro Capital Norte Sur Este Oeste 6. Por todo lo anterior, tu valoracin global, general del conjunto de acciones de formacin permanente que la Consejera de Educacin de la CAM ofrece al profesorado es: Valoracin global 0 1 2 3 4 5 6 7 8 9 10 Muy negativa -------------------------------------------------------------------------> Muy positiva Muy desfavorable --------------------------------------------------------------------> Muy favorable

Tema 1: Introducin

22

Prctica 3: Diseo de una base de datos con Excel

Propn un nombre a cada variable (mximo 8 caracteres). Invntate las respuestas de 5 profesores distintos. Introduce los datos en Excel, tal y cmo hemos visto en clase (dnde sitas el nombre de la variable? dnde sitas las respuestas de los profesores). Acurdate de guardar la codificacin, que sino no se podrn entender los anlisis. Salva el fichero.
Tema 1: Introducin 23

Presentacin ordenada de datos


7

Gnero Hombre Mujer

Frec. 4 6

6 5 4 3 2 1 0 Hombre Mujer

Las tablas de frecuencias y las representaciones grficas son dos maneras equivalentes de presentar la informacin. Las dos exponen ordenadamente la informacin recogida en una muestra.
Tema 1: Introducin 24

Tablas de frecuencia

Exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca).

Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad Frecuencias relativas (porcentajes): Idem, pero dividido por el total Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas

Muy tiles para calcular cuantiles (ver ms adelante)


Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8 Entre 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%. Soluc 2: 97,3% - 83,8% = 13,5%
Nmero de hij os

Sexo del encuestado Porcentaje vlido 41,9 58,1 100,0

Vlidos

Hombre Mujer Total

Frecuencia 636 881 1517

Porcentaje 41,9 58,1 100,0

Vlidos

Niv el de felicidad Porcentaje vlido 31,1 58,0 11,0 100,0 Porcentaje acumulado 31,1 89,0 100,0

Vlidos

Perdidos Total

Frecuencia Muy feliz 467 Bastante feliz 872 No demasiado feliz 165 Total 1504 No contesta 13 1517

Porcentaje 30,8 57,5 10,9 99,1 ,9 100,0

Perdidos Total

0 1 2 3 4 5 6 7 Ocho o ms Total No contesta

Frecuencia 419 255 375 215 127 54 24 23 17 1509 8 1517

Porcentaje 27,6 16,8 24,7 14,2 8,4 3,6 1,6 1,5 1,1 99,5 ,5 100,0

Porcentaje vlido 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0

Porcentaje acumulado 27,8 44,7 69,5 83,8 92,2 95,8 97,3 98,9 100,0

Tema 1: Introducin

25

Datos desordenados y ordenados en tablas

Variable: Gnero

Gnero Frec.
Hombre 4 Mujer 6

Niveles: H = Hombre M = Mujer

Frec. relat. porcentaje


4/10=0,4=40% 6/10=0,6=60%

10=tamao muestral

Muestra:
MHHMMHMMMH

equivale a HHHH MMMMMM


Tema 1: Introducin 26

Ejemplo

Cuntos individuos tienen menos de 2 hijos? frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos Qu porcentaje de individuos tiene 6 hijos o menos? 97,3% Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual? 2 hijos

Nmero de hij os Porcent. (vlido) 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0 Porcent. acum. 27,8 44,7 69,5 83,8 92,2 95,8 97,3 98,9 100,0

0 1 2 3 4 5 6 7 Ocho+ Total

Frec. 419 255 375 215 127 54 24 23 17 1509

50%

Tema 1: Introducin

27

Grficos para v. cualitativas

Diagramas de barras

Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar tambin a variables discretas

Diagramas de sectores (tartas, polares)


No usarlo con variables ordinales. El rea de cada sector es proporcional a su frecuencia (abs. o rel.)

Pictogramas

Fciles de entender. El rea de cada modalidad debe ser proporcional a la frecuencia. De los dos, cul es incorrecto?.

Tema 1: Introducin

28

Grficos diferenciales para variables numricas


419
400

375

Recuento

Son diferentes en funcin de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas.

300

255 215
200

127
100

54 24 23 17

Diagramas barras para v. discretas

7 Ocho o ms

Se deja un hueco entre barras para indicar los valores que no son posibles
250 200

Nme ro de hijos

El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

Recuento

Histogramas para v. continuas

150

100

50

20

40

60

80

Edad del encue stado

Tema 1: Introducin

29

Prctica 4: Ejercicio de lectura de grficos

A continuacin se presentan un conjunto de grficas obtenidas del Sistema Estatal de Indicadores de Educacin 2006 (http://www.institutodeevaluacion.mec.es/sistema_estatal_

de_indicadores_de_la_educacion/2006/introduccion/)

Realiza la interpretacin de las grficas que se te presentan. Es decir:


Seala la tendencia general del grfico (qu dice globalmente) Seala los casos extremos o llamativos (cules son las excepciones). Muestra la conclusin en una frase sinttica (haz por ejemplo un titular de peridico). Para comprobar que est bien, puedes leer la interpretacin que hace el Instituto de Evaluacin (eso si, hazlo despus de tu intento). Ves tu las mismas cosas que ven ellos?
Tema 1: Introducin 30

La tasa de idoneidad es el % de alumnos que estn escolarizados en el curso que les corresponde por edad.

Tema 1: Introducin

31

Ver la pgina siguiente para entender el significado de la escala.

Si los datos no estuvieran agrupados en intervalos, cmo debera haber sido este grfico? Tienen sentido realizar este agrupamiento con este tipo de variables? Tema 1: Introducin
32

Tema 1: Introducin

33

Tema 1: Introducin

34

Qu hemos visto?

Definicin de estadstica Poblacin Muestra Variables Cualitativas Numricas Presentacin ordenada de datos Tablas de frecuencias

absolutas relativas acumuladas Cualitativas Numricas

Representaciones grficas

Tema 1: Introducin

35

You might also like