You are on page 1of 11

Docencia en Estadstica con Microsoft Excel: Estadstica Descriptiva

DOCENCIA EN ESTADSTICA CON MICROSOFT EXCEL: ESTADSTICA DESCRIPTIVA

rsula Faura Martnez, Isabel Parra Frutos, Fuensanta Arnaldos Garca, MTeresa Daz Delfa, Lourdes Molera Peris Universidad de Murcia

RESUMEN
Con la finalidad de que los alumnos comprendan mejor los conceptos tericos desarrollados en cualquier curso de estadstica y, adems, dotar a los futuros profesionales de recursos que les ayuden a manejar y tratar datos del mundo real, es conveniente estudiar la estadstica desde una perspectiva ms prctica apoyndonos en herramientas informticas como las hojas de clculo, ms verstiles que el software puramente estadstico (SPSS, Statgraphics, S-PLUS,...). En particular, centramos nuestra atencin en Microsoft Excel, dada su amplia implantacin actual. El primer problema que se plantea a la hora de analizar una gran cantidad de datos es cmo obtener una visin inicial de la informacin que contienen los mismos, que permita ofrecer una primera valoracin del comportamiento de la caracterstica que se est estudiando. Por ello es conveniente disponer de resmenes como los proporcionados por las tablas de frecuencias, ya sean unidimensionales,

bidimensionales o condicionadas, tanto para datos agrupados como no agrupados en intervalos. Para lograr este objetivo de una forma rpida y sencilla, utilizamos las tablas dinmicas de Excel.

Palabras clave: estadstica descriptiva, tabulacin, hoja de clculo.


XII Jornadas de ASEPUMA

Faura, U.; Parra, I.; Arnaldos, F.; Daz, M.T. y Molera, L.

1. INTRODUCCIN
La tcnicas bsicas de anlisis de datos, objeto de la Estadstica Descriptiva, son cada da ms utilizadas como elemento de apoyo a la toma de decisiones en cualquier mbito, pero ms an lo son dentro del mundo de la Economa y la Administracin de Empresas. Son tcnicas que requieren de procesos de clculo que, en muchas ocasiones, son tediosos y necesitan de un cierto nivel de esfuerzo o dedicacin. Tradicionalmente, y quizs por ello, los estadsticos han sido considerados calculistas, siendo su tarea principal la de sintetizar una gran masa de informacin y, as, reducir la incertidumbre asociada a toda toma de decisiones. Sin embargo, esta situacin traa consigo un cierto alejamiento del usuario final de las tcnicas, especialmente cuando se dispona de una gran cantidad de datos. Hoy da la situacin ha cambiado, desde hace tiempo se dispone de herramientas informticas adecuadas y de gran potencia que simplifican los clculos, pero su manejo requiere, lgicamente, un entrenamiento. La informtica descentralizada es un hecho en el mundo empresarial que permite que cada usuario, cada responsable de un rea o departamento de la empresa que requiera informacin, encuentre posibilidades para su tratamiento autnomo. Raro es ya encontrar una empresa, que disponga de un personal mnimamente cualificado, en la que no est instalado el software ms difundido actualmente en el mercado, el paquete Microsoft Office, que incluye la hoja de clculo Excel. Para hacer ms efectiva la enseanza de las diferentes herramientas estadsticas, ya sean de descriptiva, de modelos de probabilidad o de inferencia, es aconsejable darle un enfoque prctico. Sin embargo, en la docencia en Estadstica Descriptiva usualmente, y por motivos didcticos y de facilidad de clculo, se han utilizado tradicionalmente ejemplos prcticos basados en conjuntos pequeos de valores o, si eran grandes, se presentaban tabulados, dejando al alumno desprovisto de herramientas que le permitieran afrontar el anlisis estadstico de un nmero elevado de datos que no estuviesen organizados, situacin que en la prctica puede ser ms frecuente que las anteriores. El objetivo del presente trabajo es proponer diferentes prcticas a realizar con la hoja de clculo Excel que incidan en este vaco docente.

XII Jornadas de ASEPUMA

Docencia en Estadstica con Microsoft Excel: Estadstica Descriptiva

2. LA DOCENCIA EN ESTADSTICA DESCRIPTIVA Y LAS HERRAMIENTAS INFORMTICAS


Una de las ramas de la Estadstica ms accesible por su bajo nivel de dificultad y por su utilidad es la Estadstica Descriptiva. Adems, constituye el paso previo en cualquier anlisis de datos ms sofisticado. Se dedica, fundamentalmente, al ordenamiento y tratamiento mecnico de la informacin para su presentacin por medio de tablas y representaciones grficas, as como a la obtencin de algunos estadsticos tiles para la explicacin de la(s) caracterstica(s) poblacional(es) objeto de estudio. En el mundo real se ha generado una dinmica de produccin de datos enorme, datos que es necesario comprender para obtener la mxima informacin que nos permita conocer la realidad en la que se est inmerso, as como tomar las decisiones oportunas. Para ello se hace necesario una depuracin y procesamiento de los datos. Aqu es donde la Estadstica Descriptiva juega un papel fundamental. El anlisis estadstico, por tanto, empieza con el objetivo de resumir la informacin disponible (datos) de tal forma que podamos obtener una primera impresin del comportamiento de la caracterstica poblacional bajo estudio en forma de tablas y representaciones grficas. En particular, los problemas prcticos de la tabulacin son precisamente los que pretendemos abordar en este trabajo. En los cursos tradicionales de Estadstica Descriptiva (sin el complemento de herramientas informticas) se impartan una serie de conocimientos muy tiles; sin embargo, en el mundo real el alumno encuentra un problema que desde una asignatura de Estadstica Descriptiva no se le haba solucionado, constituyendo dicho problema, en ocasiones, un obstculo que le impeda la aplicacin de las valiosas herramientas estadsticas que haba estudiado. Nos referimos al hecho de que para la aplicacin de buena parte de los conocimientos que les transmitimos necesitan disponer de tablas de frecuencias. Estas tablas se podran elaborar manualmente si se dispone de pocos datos, con la consiguiente prdida de tiempo y cierta probabilidad de error en la elaboracin. Sin embargo, hoy da se produce una gran cantidad de datos que los alumnos podran entender si les proporcionamos un abanico completo de herramientas de anlisis, tanto informticas como estadsticas. De ah nuestro empeo desde hace unos aos, puesto que la tecnologa y disposicin de medios en nuestra universidad lo permiten, en introducir prcticas en el aula de informtica que les ayuden a enfrentarse a situaciones
3

XII Jornadas de ASEPUMA

Faura, U.; Parra, I.; Arnaldos, F.; Daz, M.T. y Molera, L.

reales, esto es, a una gran cantidad de datos correspondientes a variables multidimensionales. Nuestro objetivo aqu, como ya avanzamos, es la tabulacin. Las tablas de frecuencias tienen un doble objetivo: resumir la informacin disponible y simplificar el clculo de estadsticos. Tambin es cierto que cuando se recurre a herramientas informticas el segundo objetivo pierde validez dado que los programas informticos (hojas de clculo o programas estadsticos) proporcionan funciones que calculan estadsticos directamente a partir de los datos sin organizar, esto es, sin tabular. Sin embargo, el primer objetivo sealado no pierde validez, dado que la tabla nos permitir obtener una primera visin del comportamiento de la caracterstica poblacional, adems de ser la base para la construccin de grficos cuando trabajamos con hojas de clculo.

3. OBJETIVOS DE LAS PRCTICAS DE TABULACIN


Las prcticas de tabulacin en el aula de informtica son las primeras a las que se enfrenta un alumno. En ellas se le proporciona una realidad que debe analizar. Por ejemplo, en una de las prcticas llevadas a cabo se deseaba estudiar la actividad comercial de una cadena de tiendas de ropa infantil, en la que se propona una gran cantidad de datos (en concreto 7178=1.246 datos), para que observara las ventajas y la necesidad de un tratamiento informtico. Los objetivos que perseguimos con este tipo de prcticas son varios y en todos ellos la herramienta de Excel a utilizar, aunque de forma diferente, es Tablas dinmicas.1 Objetivo 1. Identificacin de poblacin, elemento poblacional y variables. A partir de un fichero de datos como el de la siguiente figura, pretendemos que perciban cmo (en este caso, sobre la realidad comercial de una empresa) se pueden observar diferentes caractersticas poblacionales en los elementos de la poblacin o muestra, que conforman una variable multidimensional. Esto conlleva, en primer lugar, a que el alumno identifique quin es el elemento poblacional que se observa (el cliente) y cmo sobre ese elemento se pueden distinguir diferentes caractersticas (tienda en la que ha comprado, zona en la que vive, valor de la compra que ha realizado, descuento que ha obtenido, marca de ropa que ha comprado, edad del cliente -nio/a- y talla comprada). En segundo lugar, a que identifique los caracteres cuantitativos y

Es interesante hacerles resaltar que el trmino tabla dinmica es exclusivo de una herramienta de Excel y no es un trmino estadstico, dado que tienden a confundirlo.
XII Jornadas de ASEPUMA

Docencia en Estadstica con Microsoft Excel: Estadstica Descriptiva

cualitativos, con el problema aadido de una columna (CLIENTE) que representa a cada cliente y que no constituye ninguna caracterstica poblacional.

Las caractersticas poblacionales en nuestro ejemplo son las siguientes: TIENDA: cdigo de la tienda ZONA: zona de residencia del cliente VENTAS: volumen de venta al cliente, en euros DESCUENTO: descuento practicado al cliente MARCA: marca de los artculos vendidos EDAD: edad del cliente (bebe o nio), en meses TALLA: talla vendida

Adems, para contemplar las situaciones en las que se producen devoluciones, algunos datos han sido sustituidos por DEV. Objetivo 2. Tabulacin de variables cualitativas (atributos). En general, la tabulacin de un atributo consiste en saber las distintas modalidades del atributo y la frecuencia con la que stas han aparecido. Esta es la teora que les damos en clase y que ahora deben aplicar. El problema prctico que soluciona Excel es conocer las distintas modalidades que tiene el atributo y despus contar las repeticiones cuando disponemos de un nmero elevado (178) de observaciones. Una vez obtenida la tabla de frecuencias es importante que entiendan su contenido. As, para el atributo TIENDA la informacin que ofrece es el nmero de clientes que ha tenido cada una de las tres tiendas (en el periodo estudiado). TIENDA T1 T2 T3
XII Jornadas de ASEPUMA

ni 61 84 33 178
5

Faura, U.; Parra, I.; Arnaldos, F.; Daz, M.T. y Molera, L.

Objetivo 3. Tabulacin de variables cuantitativas. Este caso es ms complejo. Por ejemplo, para la variable EDAD, el alumno se va a encontrar con dos problemas. En primer lugar, si realiza la tabulacin siguiendo los pasos que ya ha visto con los atributos, el resultado que obtendra sera incorrecto dado que aparecera el dato DEV que no es un valor posible de la variable. Por lo tanto, se enfrenta a la depuracin de los datos (mediante la opcin Autofiltro de Excel). El segundo problema es la gran cantidad de valores distintos que toma esta variable y que se refleja en una tabla de frecuencias excesivamente larga que no cumple el propsito buscado de resumir la informacin. Los alumnos entienden aqu la necesidad de agrupar los datos. Una vez planteada esta necesidad, hay que abordar como dar una solucin. Aparecen nuevas cuestiones, cuntos intervalos hay que hacer? qu amplitud deben tener? El alumno ahora es consciente del problema prctico que se le va a presentar. En esta situacin la solucin no es nica y depende en buena medida del uso final que se le vaya a dar a la tabla. En el caso de la variable EDAD quizs resulte interesante estudiar tramos de edades que correspondan con las diferentes tallas. En general, puede existir un condicionante para la agrupacin o no, pudiendo elegir en esta ltima situacin la agrupacin que uno desee, observando unas reglas generales. Todo esto, adems, muestra que la tabulacin no es algo mecnico, que el alumno debe tener presente qu datos est estudiando, en qu unidades estn medidos2, etc., esto es, debe hacer un esfuerzo por involucrarse en la realidad que est estudiando. La agrupacin de datos en intervalos se puede hacer de diversas formas, bien de manera automtica con la opcin de Excel Agrupar3, bien determinando a priori el nmero de intervalos de igual amplitud que se desean construir, o bien la amplitud constante que se desea que tengan los intervalos. En estos dos ltimos casos, hay que determinar el rango de la variable y hacer los clculos correspondientes que permitan la construccin (no automatizada en Excel) de los intervalos. Aqu, una vez ms, el alumno debe decidir si el extremo inferior del primer intervalo y el extremo superior del ltimo intervalo van a coincidir o no con el dato ms pequeo y ms grande, respectivamente, de la muestra. Esta decisin puede depender de la clase de datos que tengamos (valores enteros o no), del tipo de intervalos que se quiera hacer (extremos
Una problema frecuente de los alumnos es que cuando calculan la edad media del cliente (nio o beb) la expresan en aos, dando como resultado una edad media de 19 aos.
2

XII Jornadas de ASEPUMA

Docencia en Estadstica con Microsoft Excel: Estadstica Descriptiva

enteros o con decimales), etc. En estos casos, adems, para calcular las frecuencias absolutas se puede recurrir a la funcin matricial de Excel denominada Frecuencia. EDAD 0-3 3-6 6-9 9-12 12-15 15-18 18-21 21-24 24-27 27-30 30-33 33-36 ni 6 12 13 9 22 19 18 14 15 12 12 14 166 EDAD 0-3 3-6 6-9 9-12 12-18 18-24 24-36 ni 6 12 13 9 41 32 53 166

Objetivo 4. Tabulacin de variables bidimensionales. Son diversas las variables unidimensionales que se pueden estudiar

conjuntamente. A continuacin describimos dos ejemplos. Estudie conjuntamente ZONA y TIENDA. La tabla de frecuencias absolutas conjuntas de ambas variables, en este caso tabla de contingencia, es TIENDA T1 T2 T3 A 17 27 13 57 B 18 16 4 38 ZONA C D 14 5 21 9 9 6 44 20 E 7 11 1 19

61 84 33 178

en la que se pone de manifiesto, por ejemplo, que las tres tiendas son visitadas por clientes residentes en las cinco zonas, dado que no hay ninguna frecuencia absoluta conjunta igual a cero. Estudie conjuntamente TALLA y EDAD. Qu conclusiones extrae en cuanto a las tallas utilizadas? Elabore una tabla de edades para las diferentes tallas que sirva de ayuda, tanto a los vendedores como a los clientes que entran a la tienda, a la hora de solicitar alguna talla.

Con esta opcin se debe tener en cuenta que el tipo de intervalo que realiza Excel es cerrado por la izquierda y abierto por la derecha. El tipo de intervalo no tiene consecuencias si ninguno de los extremos
XII Jornadas de ASEPUMA

Faura, U.; Parra, I.; Arnaldos, F.; Daz, M.T. y Molera, L.

EDAD 3 1 0-3 3-6 6-9 9-12 12-18 18-24 24-30 30-36 1

6 2

9 5 8 3

TALLA 12 18 24 30 2 4 3

36 6 12 13 9 41 32 27 26 166

6 4 7

2 26 8 9 17 9

16

17 37 34

6 18 26 50

La cuestin propuesta en cuanto a la elaboracin de una tabla de ayuda tanto a vendedores como a compradores que indique las tallas ms adecuadas para cada edad del nio no tiene una solucin nica. La construccin de la tabla de doble entrada simplifica la tarea, ya que en ella pueden observar para qu edades se est vendiendo cada talla y a partir de aqu elegir un estadstico calculado sobre la edad (media, moda, mximo, etc.) que crean adecuado para elaborarla. Objetivo 5. Tabulacin de variables condicionadas. En el contexto del ejemplo que estamos analizando se pueden estudiar mltiples variables condicionadas. Una de las propuestas puede ser la siguiente, en la que, adems, aadimos cuestiones adicionales. Considere ahora el carcter poblacional TIENDA pero, por un lado, condicionado a que NO se ha producido devolucin y, por otro, a que S se ha producido devolucin Cul es la tienda que ms ventas realiz finalmente (en nmero de clientes)?, cul es la tienda que mayor nmero de devoluciones recibi? Es evidente que se necesitan dos distribuciones condicionadas, por un lado, la de la variable TIENDA condicionada a que se haya producido devolucin y, por otro, a que no se haya producido. Estas distribuciones se consiguen en Excel realizando un filtrado de los datos que permite separar aquellos que corresponden a devolucin de los que no corresponden a devolucin, para despus tabularlos por separado. TIENDA/DEV ni/j 2 T1 9 T2 1 T3 12 fi/j 16,67% 75,00% 8,33% 100 TIENDA/No DEV T1 T2 T3 ni/j 59 75 32 166 fi/j 35,54% 45,18% 19,28% 100

de los intervalos coincide con ningn dato de la muestra o poblacin.

XII Jornadas de ASEPUMA

Docencia en Estadstica con Microsoft Excel: Estadstica Descriptiva

En el caso de que existiera una variable que recogiera la situacin de devolucin o no devolucin (que no es el caso en nuestro ejemplo) se podra optar por una tabla bidimensional para obtener a partir de ella las condicionadas. Obtenga la distribucin de la ZONA para los clientes de cada tienda. Cul es la zona de procedencia ms frecuente y menos frecuente en cada tienda? Para resolver esta cuestin no sera necesario el filtrado de los datos para no incluir aquellos clientes que devuelven su compra. Aqu lo ms rpido es elaborar una tabla de contingencia que tabule ZONA y TIENDA, y a partir de ella extraer las distribuciones condicionadas. ZONA/T1 A B C D E ni/j 17 18 14 5 7 61 ZONA/T2 A B C D E ni/j 27 16 21 9 11 84 ZONA/T3 A B C D E ni/j 13 4 9 6 1 33

Determine la marca ms vendida en cada zona y en cada tienda. Explique estadsticamente cmo obtiene este resultado. El concepto estadstico que se est pidiendo a los alumnos es la moda de distintas distribuciones condicionadas calculadas a partir de las ventas (sin incluir las devoluciones). Sin embargo, tienen dificultad en identificar los conceptos estadsticos involucrados en la pregunta, aunque en general son capaces de resolver lo que se les pide sin aplicar estrictamente la teora, esto es, recurriendo a la intuicin. El primer problema prctico que se plantea es el filtrado de los datos para eliminar aquellos clientes que han devuelto su compra. Una vez eliminados los datos que hacen referencia a devoluciones, se realizan dos tablas de doble entrada con las variables MARCA y ZONA y con las variables MARCA y TIENDA. A partir de estas tablas es posible extraer las distintas distribuciones condicionadas y obtener de forma sencilla lo que se pide. Objetivo 6. Tablas de estadsticos de distribuciones condicionadas. Se trata de tablas que se realizan en Excel de forma similar a las anteriores, pero que no son tablas de frecuencias. El alumno, en general, no se da cuenta de la diferencia y a menudo las trata igual. La realizacin de grficos en estos casos, como el diagrama de sectores o el diagrama de rectngulos, es frecuente, incluso en la prctica profesional,

XII Jornadas de ASEPUMA

Faura, U.; Parra, I.; Arnaldos, F.; Daz, M.T. y Molera, L.

y no puede considerarse incorrecto. Aunque, una vez ms, no es consciente de que no est aplicando la teora estadstica expuesta en clase. Veamos algunos ejemplos. Estudie el volumen de ventas y las ventas medias por cliente de cada tienda. Para resolver esta cuestin en Excel es necesario insertar una Tabla dinmica para la variable TIENDA introduciendo en el campo datos la variable VENTAS, solicitando la Suma y el Promedio de la misma. De esta forma, para cada modalidad de TIENDA se obtiene la suma de las ventas y las ventas medias. TIENDA T1 T2 T3 Cadena de tiendas VENTAS totales 8.130,28 11.796,08 5.300,92 25.227,28 VENTAS medias/cliente 137,801 157,281 165,654 151,9716

Esta informacin sobre la variable VENTAS tambin se podra pedir por zonas, por tallas, por marcas, etc. Asimismo se les puede plantear una situacin ms compleja en la que deben recopilar diversos estadsticos de distribuciones condicionadas junto con alguna o algunas distribuciones unidimensionales con la intencin de tomar una decisin. Veamos el siguiente ejemplo. La cadena desea conocer el funcionamiento de cada tienda para estudiar su efectividad o rentabilidad, con el objetivo de realizar una mayor promocin de alguna de ellas o incluso dar cursos de formacin en ventas a sus empleados si esto fuera necesario. Evale la situacin y extraiga conclusiones calculando para cada tienda 1. total de clientes (con o sin devolucin), 2. efectividad (porcentaje de clientes que no devuelven su compra), 3. volumen total de ventas, 4. volumen total de ventas netas (ventas menos descuento), 5. la rentabilidad por cliente (ventas medias y ventas netas medias por cliente), 6. riesgo (dispersin de las ventas).
Volumen Clientes DEV Efectividad de ventas 61 2 96,721% 8.130,28 84 9 89,286% 11.796,08 33 1 96,970% 5.300,92 178 12 93,258% Volumen de ventas netas 7.290,24 10.620,42 4.780,82 Ventas medias 137,80 157,28 165,65 Ventas netas Desv. tpica medias de ventas 58,63 123,56 141,61 64,43 149,40 55,28 61,70

TIENDA T1 T2 T3 Cadena de tiendas 10

25.227,28 22.691,48 151,97 136,70

XII Jornadas de ASEPUMA

Docencia en Estadstica con Microsoft Excel: Estadstica Descriptiva

Las decisiones a tomar se pueden justificar, en base a la tabla anterior, de diferentes formas, y en ltima instancia depender de los intereses de la empresa o del empresario. Por ejemplo, se podra sealar el mejor valor en cada estadstico (en negrita) y el peor valor (en cursiva). Y a partir de ah intentar tomar una decisin en cuanto a la mejor y peor tienda o en cuanto a saber qu falla en cada una, provocando para ello una discusin en clase.

4. CONCLUSIONES
En las ltimas dcadas se ha ido intensificando notablemente la aplicacin de la informtica en las diferentes esferas del quehacer econmicosocial. Un papel relevante en este sentido le ha correspondido al perfeccionamiento de las hojas de clculo como herramienta que permite manejar gran cantidad de datos y que adems, son sencillas de utilizar. Entre estas, destaca la hoja de Microsoft Excel, con la ventaja de que los futuros egresados resultarn directamente beneficiados dondequiera que vayan a realizar su labor profesional al utilizar un software que resulta mucho ms accesible que los dirigidos slo al anlisis de datos. Con esta herramienta, los alumnos pueden adquirir una mayor solidez en los conocimientos estudiados, mejorar su capacidad de anlisis y sntesis, realizar prcticas ms realistas y, fomentar el aprendizaje activo y la motivacin. En cuanto a la tabulacin, el uso de Excel permite obtener tablas de forma sencilla, totalmente dirigida y controlada por el usuario.

5. REFERENCIAS BIBLIOGRFICAS
ARNALDOS, F.; DAZ, M.T.; FAURA, U.; MOLERA, L. y PARRA, I. (2003). Estadstica descriptiva para economa y administracin de empresas: cuestiones tipo test y ejercicios con Microsoft Excel. Ed. AC- Thomson. BERK K.N. y CAREY P. (2003). Anlisis de datos con MS Excel (actualizado para Office 2000). Ed. Thomson. CAO ABAD, R. y otros (2001). Introduccin a la estadstica y sus aplicaciones. Ed. Pirmide. FERNNDEZ, C. Y FUENTES, F. (1995): Curso de estadstica descriptiva. Teora y prctica. Ed. Ariel Economa. PREZ, C. (2002). Estadstica Aplicada a travs de Excel. Prentice-Hall, Universidad Autnoma de Madrid.
XII Jornadas de ASEPUMA

11

You might also like