You are on page 1of 28

UNIVERSIDAD POLITECNICA SALESIANA

Jose Enrique Chuya Luna


jchuyal@est.ups.edu.ec

Softwares Eestadsticos

Excel

Excel es un programa informtico desarrollado por Microsoft y forma parte


de Office que es una suite ofimtica la cual incluye otros programas como
Word y PowerPoint. Excel se distingue de los dems programas porque nos
permite trabajar con datos numricos, es decir, podemos realizar clculos,
crear tablas o grficos y tambin podemos analizar los datos con
herramientas tan avanzadas como las tablas dinmicas.

Excel es una hoja de clculo


Excel es un programa computacional que es conocido como hoja de clculo.
Las hojas de clculo fueron desarrolladas desde la dcada de 1960 para
simular las hojas de trabajo contables de papel y de esa manera ayudar en
la automatizacin del trabajo contable.

Fig 1. Hoja de calculo

Las hojas de clculo electrnicas han ido reemplazando a los sistemas de


clculo en papel y aunque inicialmente fueron creadas para tareas
contables, hoy en da son utilizadas para un sinfn de aplicaciones donde se
necesita trabajar con datos tabulares.
Un poco de historia de Excel
En el ao 1982, Microsoft incursion en el mbito de las hojas de clculo
electrnicas con el lanzamiento de su producto Multiplan. En ese tiempo ya
existan dos competidores que estaban fuertemente posicionados en el
mercado: SuperCalc de la empresa Sorcim y VisiCalc de la empresa VisiCorp,
as que no era una tarea sencilla para Microsoft ganar un poco de mercado.

Por si fuera poco, en el ao 1983, fue lanzada la hoja de clculo Lotus 1-2-
3 que tom a todos por sorpresa y se posicion rpidamente como la hoja
de clculo ms utilizada. Microsoft solamente observ cmo la hoja de
clculo de Lotus se posicionaba en el primer lugar, as que hizo a un lado su
producto Multiplan y comenz a trabajar en la primera versin de Excel la
cual fue lanzada en el ao 1985.

Esa primera versin de Excel fue hecha exclusivamente para la plataforma


Macintosh, pero dos aos despus, en 1987, Microsoft lanz Excel 2.0 que
ya consideraba una versin para la plataforma Windows. A partir de ese
momento, la aplicacin de Microsoft comenz su crecimiento hasta
convertirse en la hoja de clculo ms utilizada de todos los tiempos.

La pantalla principal de Excel


La caracterstica principal de Excel, tal como lo conocemos hoy en da, es
que la pantalla principal muestra una matriz de dos dimensiones, es decir,
est formada por filas y por columnas. De esta manera se forman pequeos
recuadros que conocemos como celdas donde cada una de ellas tendr una
direccin nica que estar conformada por la columna y la fila a la que
pertenece, es decir, la direccin ser una letra (columna) y un nmero (fila).
Por ejemplo, la celda superior izquierda de la matriz tiene la direccin A1.

Fig 2. Ventana de excel.

En cada una de las celdas podemos ingresar datos numricos y


alfanumricos. Una manera de saber si Excel ha reconocido un dato como
un nmero, o como un texto, es que si introducimos un dato de tipo texto se
alinear a la izquierda de la celda mientras que los datos numricos se
alinearn a la derecha.
Fig 3.Tipos de datos en excel

De esta manera sabemos que Excel reconoce entre un dato numrico y un


dato alfanumrico en cada celda.

Operaciones aritmticas en Excel


Excel nos permite realizar clculos aritmticos con nuestros datos
numricos como la suma (+), la resta (-), la multiplicacin (*) y la divisin
(/). La nica condicin es que debemos colocar un signo igual (=)
precediendo a la frmula de manera que Excel efecte el clculo
correspondiente.

Fig 4. Operacin en excel.

Podemos escribir frmulas tan grandes como lo necesitemos y solamente


debemos respetar el mximo de caracteres que es de 8,192 para la versin
de Excel 2010.

Algo que es extremadamente til al momento de escribir frmulas en Excel


es que podemos hacer referencia a otras celdas para incluir sus valores
dentro de los clculos. A ese vnculo creado entre celdas lo conocemos
como una referencia. Por ejemplo, la siguiente frmula har la suma de los
valores en las celdas A1 y A2:

=A1+A2

Para conocer ms sobre este tema te recomiendo leer el


artculo: Referencias en Excel.

Funciones de Excel
Aunque podemos utilizar los operadores aritmticos para realizar muchos de
nuestros clculos, Excel tiene sus propias funciones las cuales son
procedimientos que nos ayudan a efectuar clculos sobre nuestros datos.
Podemos pensar en las funciones como si fueran un asistente de Excel al
cual le daremos algunos datos numricos y se encargarn de realizar los
clculos y entregarnos el resultado correcto.

Un ejemplo es la funcin PROMEDIO a quien puedo pasarle una serie de


valores numricos y me regresar el promedio de todos ellos.

Fig 5.fuciones en excel

Las funciones de Excel estn catalogadas por su funcionalidad y algunas de


esas categoras son las funciones de bsqueda y referencia, las funciones
lgicas, las funciones de texto, las funciones de fecha y hora, etc.

Para conocer todas las categoras de funciones disponibles en Excel puedes


hacer clic sobre la pestaa Frmulas y vers una serie de botones con los
nombres de las categoras. Al hacer clic sobre cualquiera de ellos se
mostrarn las funciones que pertenecen a dicha categora, por ejemplo, la
siguiente imagen muestra algunas de las funciones de la
categora Matemticas y trigonomtricas.

Fig 6. Funciones disponibles.

Otra alternativa para conocer las categoras y sus funciones es hacer clic en
el men Funciones de este sitio Web donde encontrars el listado completo
de funciones de Excel.

Datos tabulares en Excel


Como lo he mencionado al principio, hoy en da Excel es utilizado en
diversas disciplinas donde se necesiten datos tabulares. La gran cantidad de
celdas, que forman cada una de las hojas de un libro de Excel, nos facilitan
el organizar los datos de manera tabular.
Por esta razn Excel nos ofrece una buena cantidad de herramientas para
dar formato a nuestros datos. Ya sea que necesitamos darles un formato
de tabla de Excel, o que apliquemos un formato condicional o simplemente
apliquemos algn estilo de celda.

Excel es una herramienta ampliamente utilizada para trabajar con datos


tabulares ya que podremos ordenarlos, filtrarlos, hacer una bsqueda sobre
ellos, o utilizar herramientas avanzadas para analizar dicha informacin.

Grficos en Excel
Una de las razones por las que Excel es una de las aplicaciones ms
populares alrededor del mundo es por su capacidad de crear grficos
basados en datos. El hecho de tener una herramienta visual facilita mucho
la compresin e interpretacin de la informacin por lo que millones de
usuarios de la aplicacin generan sus propios reportes en Excel.

Fig 7 graficos en excel.

Aprender a crear grficos de Excel es un tema aparte, pero puedes tener


una idea de los diferentes grficos disponibles al hacer clic en la
pestaa Insertar y de inmediato vers un grupo de comandos identificado
con el nombre Grficos donde podrs encontrar todos los tipos de grficos
disponibles en Excel.

Tfig 8. Tipos de graficas

Nombres y versiones de Excel


Frecuentemente encontrars literatura que se refiere a la hoja de clculo de
Microsoft con el nombre de Excel. Algunos otros lo llaman por el nombre
Microsoft Excel y tambin como Office Excel por ser parte de la suite
Office.

Tambin encontrars que es comn hacer referencia a la hoja de clculo por


su versin, por ejemplo: Excel 2003, Excel 2007, Excel 2010, etc. Si
quieres saber ms sobre las diferentes versiones de Excel, puedes consultar
el artculo: Versiones de Excel.

MATLAB

MATLAB (abreviatura de MATrix LABoratory, "laboratorio de matrices") es


una herramienta de software matemtico que ofrece un entorno de
desarrollo integrado (IDE) con un lenguaje de programacin propio (lenguaje
M). Est disponible para las plataformas Unix, Windows, Mac OS
X y GNU/Linux .

Entre sus prestaciones bsicas se hallan: la manipulacin de matrices, la


representacin de datos y funciones, la implementacin de algoritmos, la
creacin de interfaces de usuario (GUI) y la comunicacin con programas en
otros lenguajes y con otros dispositivos hardware. El paquete MATLAB
dispone de dos herramientas adicionales que expanden sus prestaciones, a
saber, Simulink (plataforma de simulacin multidominio) y GUIDE (editor de
interfaces de usuario - GUI). Adems, se pueden ampliar las capacidades de
MATLAB con las cajas de herramientas (toolboxes); y las de Simulink con
los paquetes de bloques (blocksets).

Es un software muy usado en universidades y centros de investigacin y


desarrollo. En los ltimos aos ha aumentado el nmero de prestaciones,
como la de programar directamente procesadores digitales de seal o crear
cdigo VHDL.

Historia

Fue creado por el matemtico y programador de computadoras Cleve Moler


en 1984, surgiendo la primera versin con la idea de emplear paquetes de
subrutinas escritas en Fortran en los cursos de lgebra lineal y anlisis
numrico, sin necesidad de escribir programas en dicho lenguaje. El
lenguaje de programacin M fue creado en 1970 para proporcionar un
sencillo acceso al software de matrices LINPACK y EISPACK sin tener que
usar Fortran.
En 2004, se estimaba que MATLAB era empleado por ms de un milln de
personas en mbitos acadmicos y empresariales.

Caractersticas

Lenguaje

Las aplicaciones de MATLAB se desarrollan en un lenguaje de programacin


propio. Este lenguaje es interpretado, y puede ejecutarse tanto en el
entorno interactivo, como a travs de un archivo de script (archivos *.m).
Este lenguaje permite operaciones de vectores y matrices, funciones,
clculo lambda, y programacin orientada a objetos.

Grficos e interfaces grficas

MATLAB provee funciones para visualizar datos en 2D y 3D.

Simulink

Simulink es un mdulo que permite la simulacin de sistemas dinmicos a


travs de una interfaz basada en bloques.

Toolboxes

Las funcionalidades de Matlab se agrupan en ms de 35 toolboxes y


paquetes de bloques (para Simulink), clasificadas en las siguientes
categoras:

MATLAB

Parallel Computing

Math, Statistics, and Optimization

Control Systems

Signal Processing and Communications

Image Processing and Computer Vision

Test and Measurement

Computational Finance

Computational Biology

Code Generation and Verification


Application Deployment

Database Connectivity and Reporting

MATLAB Report Generator


Simulink

Event-Based Modeling

Physical Modeling

Control Systems

Signal Processing and Communications

Code Generation

Real-Time Simulation and Testing

Verification, Validation, and Test

Simulation Graphics and Reporting

Limitaciones y alternativas

Durante mucho tiempo hubo crticas porque MATLAB es un producto


propietario de The Mathworks, y los usuarios estn sujetos y bloqueados al
vendedor. Recientemente se ha proporcionado una herramienta adicional
llamada MATLAB Builder bajo la seccin de herramientas "Application
Deployment" para utilizar funciones MATLAB como archivos de biblioteca
que pueden ser usados con ambientes de construccin de aplicacin .NET o
Java. Pero la desventaja es que el computador donde la aplicacin tiene que
ser utilizada necesita MCR(MATLAB Component Runtime) para que los
archivos MATLAB funcionen correctamente. MCR se puede distribuir
libremente con los archivos de biblioteca generados por el compilador
MATLAB.

Interfaz con otros lenguajes de programacin

MATLAB puede llamar funciones y subrutinas escritas en C o Fortran. Se


crea una funcin envoltorio que permite que sean pasados y devueltos tipos
de datos de MATLAB. Los archivos objeto dinmicamente cargables creados
compilando esas funciones se denominan "MEX-files", aunque la extensin
de nombre de archivo depende del sistema operativo y del procesador.

Requisitos del sistema

Los requisitos del sistema para la versin R2016b son los siguientes: 3
Sistema operativo:

Windows: Windows 7 SP1 en adelante, Windows Server 2008 SP2


en adelante.

Mac: macOS 10.10 - 10.11

Linux: Kernel 2.6 o superior, glibc 2.11 o superior.

Procesador: Intel o AMD x86-64 con soporte de instrucciones AVX2.

Disco: 2 GB solo para MATLAB, 4-6 GB para una instalacin tpica.

RAM: 1GB mnimo, 4 GB recomendado.

Tarjeta grfica: Soporte para OpenGL 3.3 recomendado con 1 GB en


GPU.
SPSS

SPSS es un programa estadstico informtico muy usado en las ciencias


exactas, sociales y aplicadas, adems de las empresas de investigacin de
mercado. Originalmente SPSS fue creado como el acrnimo de Statistical
Package for the Social Sciences aunque tambin se ha referido como
"Statistical Product and Service Solutions" (Pardo, A., & Ruiz, M.A., 2002, p.
3). Sin embargo, en la actualidad la parte SPSS del nombre completo del
software (IBM SPSS) no es acrnimo de nada.

Es uno de los programas estadsticos ms conocidos teniendo en cuenta su


capacidad para trabajar con grandes bases de datos y una sencilla interfaz
para la mayora de los anlisis. En la versin 12 de SPSS se podan realizar
anlisis con 2 millones de registros y 250.000 variables. El programa
consiste en un mdulo base y mdulos anexos que se han ido actualizando
constantemente con nuevos procedimientos estadsticos. Cada uno de estos
mdulos se compra por separado.

Por ejemplo SPSS puede ser utilizado para evaluar cuestiones educativas.

Actualmente, compite no slo con softwares licenciados como lo son


SAS, MATLAB, Statistica, Stata, sino tambin con software de cdigo abierto
y libre, de los cuales el ms destacado es el Lenguaje R. Recientemente ha
sido desarrollado un paquete libre llamado PSPP, con una interfaz
llamada PSPPire que ha sido compilada para diversos sistemas operativos
como Linux, adems de versiones para Windows y OS X. Este ltimo
paquete pretende ser un clon de cdigo abierto que emule todas las
posibilidades del SPSS.

Historia

Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent.
Entre 1969 y 1975 la Universidad de Chicago por medio de su National
Opinion Research Center estuvo a cargo del desarrollo, distribucin y venta
del programa. A partir de 1975 corresponde a SPSS Inc.

Originalmente el programa fue creado para grandes computadores.


En 1970 se publica el primer manual de usuario del SPSS por Nie y Hall. Este
manual populariza el programa entre las instituciones de educacin superior
en EE. UU. En 1984 sale la primera versin para computadores personales.

Desde la versin 14, pero ms especficamente desde la versin 15 se ha


implantado la posibilidad de hacer uso de las libreras de objetos del SPSS
desde diversos lenguajes de programacin. Aunque principalmente se ha
implementado para Python, tambin existe la posibilidad de trabajar desde
Visual Basic, C++ y otros lenguajes.

El 28 de junio de 2009 se anuncia que IBM, meses despus de ver frustrado


su intento de compra de Sun Microsystems, adquiere SPSS, por 1.200
millones de dlares.

Mdulos del SPSS

El sistema de mdulos de SPSS, como los de otros programas (similar al de


algunos lenguajes de programacin) provee toda una serie de capacidades
adicionales a las existentes en el sistema base. Algunos de los mdulos
disponibles son:

Modelos de Regresin

Modelos Avanzados

Reduccin de datos: Permite crear variables sintticas a


partir de variables colineales por medio del Anlisis Factorial.

Clasificacin: Permite realizar agrupaciones de observaciones


o de variables (cluster analysis) mediante tres algoritmos distintos.

Pruebas no paramtricas: Permite realizar distintas pruebas


estadsticas especializadas en distribuciones no normales.
Tablas: Permite al usuario dar un formato especial a las salidas de los
datos para su uso posterior. Existe una cierta tendencia dentro de los
usuarios y de los desarrolladores del software por dejar de lado el
sistema original de TABLES para hacer uso ms extensivo de las
llamadas CUSTOM TABLES.

Tendencias

Categoras: Permite realizar anlisis multivariados de variables


normalmente categoras. Tambin se pueden usar variables mtricas
siempre que se realice el proceso de recodificacin adecuado de las
mismas.

Anlisis Conjunto: Permite realizar el anlisis de datos recogidos


para este tipo especfico de pruebas estadsticas.

Mapas: Permite la representacin geogrfica de la informacin


contenida en un fichero (descontinuado para SPSS 16).

Pruebas Exactas: permite realizar pruebas estadsticas en muestras


pequeas.

Anlisis de Valores Perdidos: Regresin simple basada en


imputaciones sobre los valores ausentes.

Muestras Complejas: permite trabajar para la creacin de muestras


estratificadas, por conglomerados u otros tipos de muestras.

SamplePower (clculo de tamaos muestrales)

rboles de Clasificacin: Permite formular rboles de clasificacin


y/o decisin con lo cual se puede identificar la conformacin de grupos y
predecir la conducta de sus miembros.

Validacin de Datos: Permite al usuario realizar revisiones lgicas


de la informacin contenida en un fichero ".sav" y obtener reportes de
los valores considerados atpicos. Es similar al uso de sintaxis o scripts
para realizar revisiones de los ficheros. De la misma forma que estos
mecanismos es posterior a la digitalizacin de los datos.

SPSS Programmability Extension (SPSS 14 en adelante). Permite


utilizar el lenguaje de programacin Python para un mejor control de
diversos procesos dentro del programa que hasta ahora eran realizados
principalmente mediante scripts (con el lenguaje SAX Basic). Existe
tambin la posibilidad de usar las tecnologas .NET de Microsoft para
hacer uso de las libreras del SPSS. Aunque algunos usuarios han
cuestionado sobre la necesidad de incluir otros lenguajes, la empresa no
tiene esto entre sus objetivos inmediatos.

Desde el SPSS/PC hay una versin adjunta denomina SPSS Student que es
un programa completo de la versin correspondiente pero limitada en su
capacidad en cuanto al nmero de registros y variables que puede procesar.
Esta versin es para fines de enseanza del manejo del programa

Manejo

SPSS tiene un sistema de ficheros en el cual el principal son los archivos de


datos (extensin. SAV). Aparte de este tipo existen otros dos tipos de uso
frecuente:

Archivos de salida (output, extensin. SPO): en estos se despliega


toda la informacin de manipulacin de los datos que realizan los
usuarios mediante las ventanas de comandos. Son susceptibles de ser
exportados con varios formatos (originalmente HTML, RTF o TXT,
actualmente la versin 15 incorpora la exportacin a PDF junto a los
formatos XLS y DOC que ya se encontraban en la versin 12)

Archivos de sintaxis (extensin. SPS): Casi todas las ventanas de SPSS


cuentan con un botn que permite hacer el pegado del proceso que el
usuario desea realizar. Lo anterior genera un archivo de sintaxis donde
se van guardando todas las instrucciones que llevan a cabo los
comandos del SPSS. Este archivo es susceptible de ser modificado por el
usuario. Muchos de los primeros usuarios del SPSS suelen escribir estos
archivos en vez de utilizar el sistema de pegado del programa.

Existe un tercer tipo de fichero: el fichero de scripts (extensin. SBS). Este


fichero es utilizado por los usuarios ms avanzados del software para
generar rutinas que permiten automatizar procesos muy largos y/o
complejos. Muchos de estos procesos suelen no ser parte de las salidas
estndar de los comandos del SPSS, aunque parten de estas salidas. Buena
parte de la funcionalidad de los archivos de scripts ha sido ahora asumida
por la insercin del lenguaje de programacin Python en las rutinas de
sintaxis del SPSS. Procedimientos que antes solo se podan realizar
mediante scripts ahora se pueden hacer desde la sintaxis mismo.

El programa cuando se instala trae un determinado nmero de ejemplos o


utilidades de casi todos los ficheros en cuestin. Estos son usados para
ilustrar algunos de los ejemplos de uso del programa.

Aqu est una pequea lista de cosas que se pueden hacer mediante este
programa:

1.Introduccin de datos:

Vamos a vista de datos y se introducen en DISTINTAS columnas (porque son


distintas variables) de arriba abajo

2.Clculos bsicos:
-para hacer operaciones: ANALIZAR>>estadsticos
descriptivos>>frecuencias (para tablas de frecuencias) ah llevas la variable
que te interese al otro lado y le das a estadsticos donde marcaremos todo
lo que queramos saber (media, moda, mediana, cuartiles). Nos aparecer
una pantalla nueva con los resultados. Si necesitamos saber P2,5 o P97,5
habra que hacerlo aqu.

-ANALIZAR>>estadsticos descriptivos>>explorar: ah introducimos la


variable en el primer campo (lista de dependientes) y le damos a aceptar.
Aqu nos da toda la informacin de antes pero ADEMS nos da el intervalo
de confianza y estimacin muestral as como el error tpico de la media
ENCIMA nos da las grficas del diagrama tronco hojas y el de cajas.

-Para la ASIMETRIA y la KURTOSIS: En simetra: si es negativo est sesgada a


la IZQUIERDA si es 0 es simtrica y si es positivo est sesgada a la
DERECHA. En curtosis: si est rondando el 0 es mesocurtica, si es negativo
platicrtica y si es positiva leptocrtica.

-ANALIZAR>>estadsticos descriptivos>>frecuencias>>grficos esto es til


para ver la FORMA DE LA DISTRIBUCIN ya que podemos superponer la
curva de la normal. Si la curva se parece al histograma podemos decir que
es simtrica.

-Si por ejemplo queremos hacer una nube de puntos o un diagrama de


dispersin para ver dos variables cuantitativas, vamos a Grficos>>cuadro
de dilogos antiguos>>dispersin puntos>>dispersin simple>>definir>>
OJO hay que saber cual es la dependiente y cual la independiente. En
funcin de ser la X (dependiente (Y) e independiente (X)[la edad por
ejemplo sera independiente en la mayora de los casos])

-Otra cosa que podemos sacar es el coeficiente de correlacin lineal de


Pearson ANALIZAR>>correlaciones>>bivariadas. Ah nos aparecer una
tabla. En una diagonal siempre nos saldr 1 (no hacer caso) en el otro te
aparecer otro valor, que ser el importante.

-El coeficiente de regresin y el coeficiente de determinacin:


ANALIZAR>>regresin>>lineal. De todas las tablas que hay, hay que fijarse
en la que pone RESUMEN DEL MODELO y fijarse en la R2 (coeficiente de
determinacin). Para sacar el coeficiente de regresin (b) hay que mirar en
una tabla llama COEFICIENTES. Ah vemos dos nmeros debajo de la B. La
primera se llama constante (tambin denominada a) y el segundo es el
coeficiente B de regresin. En resumen hay que coger el SEGUNDO.

-Si queremos contrastar dos medias: ANALIZAR>> comparar


medias>>prueba t para muestras independientes>>definir grupos.
-Para hacer una seleccin de datos de una variable: DATOS>>Seleccionar
casos>>Si satisface la condicin>>Pones la variable a la derecha=(lo que
quieras comparar) Ahora ya vamos a ANALIZAR>>explorar.

-ANALIZAR>>Estadstico descriptivo>>tablas de contingencia>>casillas>>


% en filas>> aceptar

-ANALIZAR>>Estadsticos descriptivos>>Tablas de contingencia>>Mostrar


grfico de barras agrupados Y estadsticos>>(el estadstico que se quiera)

-ANALIZAR>>Comparar medias>>Prueba T para 1 muestra>>(ponemos el


valor en valor de prueba)>>Aceptar `[Miramos en Sig]

-Si queremos cambiar el nombre a las variables para que sea ms cmodo,
se puede en VISTA DE VARIABLES (pestaa derecha) y clickas en el nombre.

Fichero de datos de SPSS

Los ficheros de datos en formato SPSS tienen en Windows la extensin. SAV.


Al abrir un fichero de datos con el SPSS, vemos la vista de datos, una tabla
en la que las filas indican los casos y las columnas las variables. Cada celda
corresponde al valor que una determinada variable adopta en un cierto
caso.

Adems de esta vista de datos, en las ltimas versiones del programa existe
una vista de variables en la que se describen las caractersticas de cada
una. En esta vista las filas corresponden a cada variable y las columnas nos
permiten acceder a sus caractersticas:

Nombre, limitado a 8 caracteres.

Tipo de variable (comprese este listado de opciones con los tipos


de variables estadsticas existentes)

Numrico, nmero en formato estndar)

Coma decimal, nmero con comas cada tres posiciones y con


un punto como delimitador de los decimales

Punto decimal, nmero con puntos cada tres posiciones y con


una coma como lmite delimitador de los decimales.

Notacin cientfica, nmero que se expresa con un formato tal


que se sigue de una E y un nmero que expresa la potencia de 10 a
la que se multiplica la parte numrica previa

Fecha
Moneda dlar, formato numrico con el que se expresan
cantidades en dlares

Moneda del usuario, formato numrico con el que se expresan


cantidades en la moneda definida en la pestaa de monedas del
cuadro de dilogo "Opciones"

Cadena de caracteres o variable alfanumrica

Tamao total

Tamao de la parte decimal

Etiqueta de la variable

Etiquetas para los valores

Valores perdidos

Espacio que ocupa en la vista de datos

Alineacin de la variable en la vista de datos

Escala de medicin.

Algunos usuarios pasan por alto las caractersticas de las variables cuando
se trabaja en la base de datos. Sin embargo, cuando se utilizan scripts o
Python las caractersticas de las variables pueden tomar gran relevancia en
la construccin de procedimientos ad-hoc.

Fichero de sintaxis de SPSS

Se pueden generar estos archivos de sintaxis con la ayuda del programa


mismo, pues en casi todas las ventanas donde se realizan tareas en el SPSS
existe un botn "Pegar". Este botn cierra la ventana en cuestin y guarda
la sintaxis de las acciones seleccionadas en dicha ventana. Una vez salvado
este archivo es susceptible de modificacin.

La sintaxis tal cual se presenta a continuacin fue producida directamente


con el SPSS. Este programa le da un formato legible a la sintaxis, formato
que el software en algunos casos no requiere para su correcto uso.

Otra peculiaridad de las sintaxis del SPSS es que no son "case sensitive".
Ante lo cual es comn ver sintaxis escritas solo en maysculas, solo en
minsculas o bien una combinacin propia de cada usuario. Esta situacin
se modifica para aquellas personas que hacen uso de Python dentro de sus
sintaxis, pues ste es un lenguaje sensitivo a las variaciones entre
maysculas y minsculas. Esto obliga a estos usuarios a escribir sintaxis con
mayor cuidado.
El siguiente ejemplo ilustra como abrir un fichero de datos mediante sintaxis
y como llevar a cabo una frecuencia y una tabla de contingencia con datos
de uno de los archivos de ejemplo que instala el programa.

*Este es un comentario, debe ir precedido por un asterisco y


finalizado por un punto.
*Abre el archivo Tomato.sav.
GET
FILE='C:\Program Files\SPSS\Tomato.sav'.
*Genera una tabla con las frecuencias de la variable fertilizante.
FREQUENCIES
VARIABLES=fert
/ORDER= ANALYSIS.
*Genera una tabla de contingencia con las variables altura inicial y
fertilizante.
CROSSTABS
/TABLES=initial BY fert
/FORMAT= AVALUE TABLES
/CELLS= COUNT
/COUNT ROUND CELL.

R (lenguaje de programacin)

R es un entorno y lenguaje de programacin con un enfoque al anlisis


estadstico.

R es una implementacin de software libre del lenguaje S pero con soporte


de alcance esttico. Se trata de uno de los lenguajes ms utilizados en
investigacin por la comunidad estadstica, siendo adems muy popular en
el campo de la minera de datos, la investigacin biomdica,
la bioinformtica y las matemticas financieras. A esto contribuye la
posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades
de clculo y grficas.

R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL. Est
disponible para los sistemas
operativos Windows, Macintosh, Unix y GNU/Linux.
Historia
Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del
Departamento de Estadstica de la Universidad de Auckland en 1993. Sin
embargo, si se remonta a sus bases iniciales, puede decirse que inici en los
Bell Laboratories de AT&T y ahora Alcatel-Lucent en Nueva Jersey con el
lenguaje S. Este ltimo, un sistema para el anlisis de datos desarrollado
por John Chambers, Rick Becker, y colaboradores diferentes desde finales de
1970. La historia desde este punto es prcticamente la del lenguaje S. Los
diseadores iniciales, Gentleman y Ihaka, combinaron las fortalezas de dos
lenguajes existentes, S y Scheme. En sus propias palabras: "El lenguaje
resultante es muy similar en apariencia a S, pero en el uso de fondo y la
semntica es derivado desde Scheme". El resultado se llam R "en parte al
reconocimiento de la influencia de S y en parte para hacer gala de sus
propios logros".

Su desarrollo actual es responsabilidad del R Development Core Team. Para


saber ms al respecto y en el entorno del programa, puede
teclearse contributors(); el la lista desplegada aparecen los nombres de
los autores iniciales y los actuales pertenecientes al R Development Core
Team (Equipo Central de Desarrolladores R).

A continuacin se enumeran algunos hitos en el desarrollo de R:

Versin 0.16: Es la ltima versin alfa desarrollada esencialmente por


Ihaka y Gentleman, que incluye gran parte de las caractersticas
descritas en el "White Book".

La lista de correo comenz su andadura el 1 de abril de 1997.

Versin 0.49 (23 de abril de 1997): Es la versin ms antigua de la


que se conserva el cdigo (que todava compila en algunas
plataformas UNIX). En esta fecha arranc tambin CRAN con
tres espejos que albergaban 12 paquetes. Poco despus aparecieron las
versiones alfa para Windows y Mac OS.

Versin 0.60 (5 de diciembre de 1997): R se integra oficialmente en


el Proyecto GNU. El cdigo se versiona a travs de CVS.
R efectuando mltiples tareas en Windows, versin 3.2.2.

Versin 1.0.0 (29 de febrero de 2000): Los desarrolladores lo


consideran suficientemente estable para su uso en produccin.

Versin 1.4.0: Se introducen los mtodos S4 y aparece la primera


versin para Mac OS X.

Versin 2.0.0 (4 de octubre de 2004): Introduce el lazy loading, que


permite una carga rpida de datos con un coste de memoria mnimo.

Versin 2.1.0: Aparece el soporte para UTF-8 y comienzan los


esfuerzos de internacionalizacin para distintos idiomas.

Versin 2.9.0: El paquete 'Matrix' se incluye en la distribucin bsica


de R.

Versin 2.11.0 (22 de abril de 2010): Soporte para sistemas Windows


de 64 bits.

Versin 2.13.0 (14 de abril de 2011): Aadida una nueva funcin al


compilador que permite acelerar las funciones convirtindolas a byte-
code.

Versin 2.14.0 (31 de octubre de 2011): Aadidos espacios de


nombres obligatorios para los paquetes. Aadido un nuevo paquete de
paralelizacin.

Versin 2.15.0 (30 de marzo de 2012): Nuevas funciones de balanceo


de cargas. Mejorada la velocidad de serializacin para grandes vectores.

Versin 3.0.0 (3 de abril de 2013): Mejoras en GUI, funciones grficas,


gestin de memoria, rendimiento e internacionalizacin.

Caractersticas
R proporciona un amplio abanico de herramientas estadsticas
(modelos lineales y no lineales, tests estadsticos, anlisis de series
temporales, algoritmos de clasificacin y agrupamiento, etc.) y grficas.

Al igual que S, se trata de un lenguaje de programacin, lo que permite que


los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran
parte de las funciones de R estn escritas en el mismo R, aunque para
algoritmos computacionalmente exigentes es posible desarrollar bibliotecas
en C, C++ o Fortran que se cargan dinmicamente. Los usuarios ms
avanzados pueden tambin manipular los objetos de R directamente desde
cdigo desarrollado en C. R tambin puede extenderse a travs de paquetes
desarrollados por su comunidad de usuarios.
R hereda de S su orientacin a objetos. La tarea de extender R se ve
facilitada por su permisiva poltica de lexical scoping.

Adems, R puede integrarse con distintas bases de datos y existen


bibliotecas que facilitan su utilizacin desde lenguajes de programacin
interpretados como Perl y Python.

Otra de las caractersticas de R es su capacidad grfica, que permite


generar grficos con alta calidad. R posee su propio formato para la
documentacin basado en LaTeX.

Regresin y su anlisis somero en R versin 3.2.2 y en el sistema operativo Windows

R tambin puede usarse como herramienta de clculo numrico, campo en


el que puede ser tan eficaz como otras herramientas especficas tales
como GNU Octave y su equivalente comercial, MATLAB. Se ha desarrollado
una interfaz, RWeka para interactuar con Weka que permite leer y escribir
ficheros en el formato arf y enriquecer R con los algoritmos de minera de
datos de dicha plataforma.

Extensiones y paquetes
R forma parte de un proyecto colaborativo y abierto. Sus usuarios pueden
publicar paquetes que extienden su configuracin bsica. Existe
un repositorio oficial de paquetes cuyo nmero super en otoo de 2009 la
cifra de los 2000.

Dado el enorme nmero de nuevos paquetes, estos se han organizado


en vistas (o temas), que permiten agruparlos segn su naturaleza y funcin.
Por ejemplo, hay grupos de paquetes relacionados con estadstica
bayesiana, econometra, series temporales, etc.

Para facilitar el desarrollo de nuevos paquetes, se ha puesto a servicio de la


comunidad una forja de desarrolloque facilita las tareas relativas a dicho
proceso.
Otros sistemas de software comerciales que integran con R
incluyen: JMP, Mathematica, MATLAB, Spotfire, SPSS, Statistica, Platform
Symphony, SAS, Tableau Software, Esri ArcGis, Dundas y Statgraphics.

Ejemplos mnimos
Algunos ejemplos mnimos para ver la forma en que se puede introducir el
cdigo.

Ejemplo 1: Instalacin y activacin de paquetes

Para cargar los paquetes que se requieren se debe de seleccionar el espejo


(mirror), descargar la paquetera y luego activarla. Para seleccionar el espejo:

> chooseCRANmirror(graphics=FALSE)
HTTPS CRAN mirror

1: 0-Cloud [https] 2: Algeria [https]


3: Australia (Melbourne) [https]
4: Australia (Perth) [https] 5: Austria [https]
6: Belgium (Ghent) [https]
7: Brazil (SP 1) [https] 8: Bulgaria [https]
9: Canada (MB) [https]
10: Chile [https] 11: China (Beijing 4) [https]
12: Colombia (Cali) [https]
13: Czech Republic [https] 14: Denmark [https]
15: France (Lyon 1) [https]
16: France (Lyon 2) [https] 17: France (Marseille) [https]
18: France (Paris 2) [https]
19: Germany (Falkenstein) [https] 20: Germany (Mnster) [https]
21: Iceland [https]
22: Ireland [https] 23: Italy (Padua) [https]
24: Japan (Tokyo) [https]
25: Malaysia [https] 26: Mexico (Mexico City) [https]
27: New Zealand [https]
28: Norway [https] 29: Philippines [https]
30: Russia (Moscow) [https]
31: Serbia [https] 32: Spain (A Corua) [https]
33: Spain (Madrid) [https]
34: Switzerland [https] 35: Taiwan (Chungli) [https]
36: Turkey (Denizli) [https]
37: UK (Bristol) [https] 38: UK (Cambridge) [https]
39: UK (London 1) [https]
40: USA (CA 1) [https] 41: USA (IA) [https]
42: USA (KS) [https]
43: USA (MI 1) [https] 44: USA (TN) [https]
45: USA (TX) [https]
46: USA (WA) [https] 47: (HTTP mirrors)

Selection:

Al escribir solo chooseCRANmirror() se desplegar una ventana para


elegirlo manualmente con el ratn. Lo mismo ocurrir si se omite graphics
= FALSE o se escribe graphics = TRUE.

Cuando se instalan paquetes para anlisis especializados, especficos o que


simplemente no tiene predeterminadamente instalados pero no activados el
sistema, se instala. As pues, en este caso, los paquetes, al ser un entorno
con dependencias funcionan mejor con tales paquetes auxiliares.
Las dependencias pueden ser por ejemplo otros paquetes o bases de datos
para que funcione o bien, o mejor o de hecho lo haga. Algunos paquetes
funcionan con dependencias muy especficas, otros con dependencias muy
generales; como sea, a veces la misma instalacin, al ser comn la
dependencia, lo hace de forma automtica, pero no en todas las ocasiones.
Por esto para instalar el paquete de inters se escribir:

install.packages("deldir", dep=T) # Para la triangulacin de Delaunay


y teselacin de Dirichlet junto con todas las dependencias

Para activar la librera pueden ser:

library("deldir") # Para el ejemplo anterior.


library('Benchmarking') # Para el [[Anlisis de Datos Envolvente]]
require(maps) # Para elaborar mapas. Previa instalacin.
require('plot3D') # Para elaborar mapas 3D. Previa instalacin.

Todos tanto con comillas dobles (" ") como con comillas simples (' ') o libres.
Si se instalaron las arriba mencionadas dependencias, aparecern
indicaciones luego del comando que describe las dependencias que tambin
se activaron al llamar la librera que se usar.

Ejemplo 2: Estimacin de salarios de manera semilogaritmica

El siguiente ejemplo es tomado del libro


de Kleiber y Zeileis intitulado Applied Econometrics with R. El ejemplo que
abajo se expondr no es tomado al pie de la letra, se le agregaron algunos
cambios por el tipo de licencia; no obstante, el fin es el mismo. Se agregan
muchas cosas para hacer ms didctico el cdigo y permitir exponer la
flexibilidad del paquete estadstico R.

library(AER) # Para el compendio de datos del libro de


Kleiber & Zeileis (2008)
library(scales) # Para las transparencias de los elementos de
color.
library(quantreg) # Para usar las regresiones por cuantiles

data("CPS1985", package = "AER") # Carga los datos del paquete AER


cps <- CPS1985 # Renombra la variable como cps
cps_lm <- lm(log(wage) ~ experience + I(experience^2) + education,
data = cps) # Hace la regresin simple
cps_rq <- rq(log(wage) ~ experience + I(experience^2) + education,
data = cps, tau = seq(0.2, 0.8, by = 0.15)) # Regresin por cuantiles
cps2 <- data.frame(education = mean(cps$education), experience =
min(cps$experience):max(cps$experience)) # Crea un "data frame"
con los datos pertinentes
cps2 <- cbind(cps2, predict(cps_lm, newdata = cps2, interval =
"prediction")) # Se agragan los valores requeridos al "data frame"
anterior
cps2 <- cbind(cps2, predict(cps_rq, newdata = cps2, type = ""))
# Se agregan los valores "tau" a cps2. Los valores de los cuantiles
jpeg("salarios.jpeg", width = 924 , height=924) # Crea una imagen en
el directorio actual con 924x924 px de cada lado
# Se hace la grfica con:
plot(log(wage) ~ experience, data = cps, # Crea el mapeo principal
de datos en el grfico
pch=20, col="#234DEA", cex=2, # Se crean los puntos
azules rellenos
axes=F, # se eliminan los ejes
ylab= "", xlab= "") # Se eliminan los nombres
de los ejes
box(lty=2, col="#424242", lwd=2) # Agregada una caja gris
punteada
# Sigue agregar el eje de las abscisas (de las x) y el de las
ordenadas
axis(1, col="#610B21", lwd=3, col.axis="#610B21", cex=2)
axis(2, col="#610B21", lwd=3, col.axis="#610B21", las=2)
# Se agregan las leyendas a los ejes
mtext("Experiencia", side=1, cex=1.7, col="#610B21", line=2)
mtext("Logaritmo del salario", side=2, cex=1.7, col="#610B21", line=2)
for(i in 6:10) lines(cps2[,i] ~ experience, data = cps2, #
hace el mapeo de las lneas predeterminadas
col=alpha("#FFFF00", .75), lwd=5)
#lneas amarillas gruesas con un 75% de transperencia
title("Estimacin de los salarios en forma semi-logartmica",
cex.main=2.7, col.main="#2E2E2E",
sub="Con base en el libro de Kleiber & Zeileis (2008) y con
datos de Brendt (1991)", col.sub="#FF0000", font.sub=4, cex.sub=1.3)
# Se crearon el ttulo y subttulo con los colores y tipo de
texto correspondientes
dev.off() # Se cierra el archivo de
imgen, JPEG en este caso

Ac abajo aparece la imagen que se gener con el cdigo de arriba. Adems, cualquier
error que en la imagen venga no es culpa de los autores del libro citado. Los propietarios
de los derechos de autor son totalmente los autores del libro.

Proyectos relacionados
Bioconductor, un conjunto de paquetes para el anlisis de datos en genmica.

Rmetrics, orientado al anlisis de los mercados financieros y la valoracin de


instrumentos de inversin.

Herramientas de productividad
Existen diversas interfaces que facilitan el trabajo con R.

Interfaces grficas

JGR o Java GUI for R, una terminal de R multiplataforma basada en Java

R Commander (Rcmdr), una interfaz grfica multiplataforma basada en tcltk


RExcel, que permite usar R y Rcmdr desde Microsoft Excel

rggobi, una interfaz a GGobi para visualizacin

RKWard, basado en KDE

Sage

Statistical Lab

nexusBPM, una herramienta de automatizacin

RStudio

Cantor

Editores e IDEs

Entre los editores de texto e IDEs con soporte para R se cuentan:

Bluefish, Crimson Editor, ConTEXT, Eclipse, Emacs (Emacs Speaks


Statistics), Geany, jEdit, Kate, RStudio, RKWard, Syn, TextMate, Tinn-R, Vim,
gedit, SciTE, WinEdt (R Package RWinEdt) y notepad++.

Sweave es un procesador de documentos que puede ejecutar cdigo de R


incrustado en cdigo de LaTeX y para insertar cdigo, resultados y grficos
en el documento escrito en LaTeX. LyX puede usarse para crear y compilar
documentos desarrollados en Sweave. El paquete odfWeave es similar,
generando documentos en el formato OpenDocument (ODF); extensiones en
estado experimental tambin permiten generar documentos del tipo
presentacin u hoja de clculo.

Lenguajes de script

La funcionalidad de R puede ser invocada desde cdigo desarrollado en


otros lenguajes de script tales como Python (mediante RPy ), Perl (mediante
Statistics::R ), Ruby y F#. Tambin pueden desarrollarse scripts en R
directamente usando littler o Rscript, que forma parte de la distribucin
bsica de R desde la versin 2.5.0.

Alternativas libres
Otras alternativas libres a R son las que abajo se presentan. Cabe recordar
que pueden tener cierto sesgo a especializarse en algn tema especfico,
como R lo hace con la biologa, fisiologa o similares, por ejemplo con el
proyecto Bioconductor. En el caso de estos sesgospositivos puede
mencionarse a GNU Octave, que es ms matemtico, o Gretl que se centra
ms a series de tiempo (usadas en econometra).
No obstante los sesgos temticos, hay amplsimos grupos que usan todas
las alternativas para usos
eclcticos. Econometra, biologa, edafologa, topologa, estadstica pueden
ser algunas de las ramas que cada vez estn usando ms las alternativas
libres de software o lenguajes de programacin (como R) para su aplicacin
terica o prctica.

Adems, los paquetes se desarrollan para R conforme las investigaciones o


publicaciones, como el caso del ejemplo 3 lneas arriba. Otro ejemplo es el
paquete de Benchmarking de R elaborado por Peter Bogetoft y Lars Otto,
ambos investigadores y especialistas del tema. Es decir, los productores de
estos paquetes con, casi siempre, especialistas e investigadores que desean
compartir los conocimientos aplicados a la comunidad de usuarios.

La naturaleza de los paquetes libres permiten que se testeen rpido y sean


sinrgicas las opiniones para un avance pronto. Luego entonces, existen
mbitos positivos en este caso tambin tanto como en las siguientes
alternativas, las privativas.

GNU Octave

Maxima

RStudio [1]

Gnumeric

Gretl

WinBUGS

Tinn-R [2]

PSPP [3]

Alternativas privativas

No obstante las poderosas alternativas libres mencionadas arriba, existen


opciones que son privadas o empresariales. En este caso, pueden
presentarse lenguajes de programacin con comunidades que comparten
cdigos. En ste caso, Stata es un fuerte ejemplo. Es decir, un especialista
puede desarrollar un paquete especial para ese programa y luego
compartirlo usualmente con la empresa autora; entonces, la empresa puede
distribuirla primero a manera de prueba y luego de forma gratuita (o con
montos monetarios especiales) y con el respaldo de la calidad avalada.

Existen puntos a favor de que las empresas distribuyan con cierto aval los
cdigos o paqueteras: se asegura del ptimo funcionamiento de las
mismas, se evitan los bugs que eventualmente pueden ser comunes en
ciertos cdigos de las alternativas libres y otras ms.

S-Plus Minitab Statistica

SPSS SAS Stata


SAS (lenguaje de programacin)

SAS es un lenguaje de programacin desarrollado por SAS Institute a finales


de los aos sesenta. Existen dos intrpretes de dicho lenguaje: uno
desarrollado por SAS Institute y otro por la empresa World Programming.

Caractersticas

Posee una sintaxis inspirada en la de PL/I, lenguaje en el que se implement


el primer intrprete.

El lenguaje SAS opera principalmente sobre tablas de datos: puede leerlas,


transformarlas, combinarlas, resumirlas, crear informes a partir de ellas, etc.
El ncleo del lenguaje (conocido habitualmente como SAS Base) incluye:

Pasos data que permiten realizar operaciones sobre las filas de un


conjunto de datos.

Procedimientos de manipulacin de datos que permiten ordenar


tablas, enlazarlas, etc.

Un intrprete de SQL.

Un superlenguaje de macros.

Algunas de las caractersticas adicionales del lenguaje de programacin SAS


son las siguientes:

Las palabras clave no estn reservadas, esto implica que se puede


usar cualquier nombre para un identificador, por ejm. una variable se
puede llamar else, aunque esta palabra tiene un significado semntico.

El lenguaje se considera ambiguo, esto implica que la interpretacin


de las instrucciones depende de instrucciones previas.
El lenguaje no se puede describir a travs de una gramtica de
contexto libre Gramtica de contexto libre.

El anlisis lxico del lenguaje depende del contexto. Analizador lxico

Mdulos adicionales
Las dos empresas que comercializan intrpretes de lenguaje SAS han
desarrollado mdulos adicionales que enriquecen la capacidad del lenguaje
para, especialmente, analizar datos.

Desarrollados por SAS Institute

SAS Institute comercializa paquetes de procedimientos adicionales para el


anlisis estadstico de los datos, tales como:

SAS/IML, mdulo que implementa un lenguaje alternativo similar


a Octave, Matlab o R.

SAS/STAT, un mdulo con procedimientos para realizar determinados


anlisis estadsticos (regresiones, etc.)

SAS/ETS para el anlisis estadstico de series temporales

SAS/OR para la resolucin de problemas de investigacin operativa

SAS/GRAPH para generar grficos

Adems, SAS Institute ha desarrollado aplicaciones interfaces tales como


SAS Enterprise Guide, SAS Data Integration Studio, SAS Enterprise Miner y
otras que generan cdigo SAS para aplicaciones especficas: ETL, minera de
datos, etc.

Desarrollados por World Programming

World Programming tambin ha implementado mdulos adicionales que


aaden al ncleo del lenguaje la capacidad para realizar determinados
anlisis estadsticos (significativamente menos que SAS Institute),
conectarse con determinadas fuentes de datos (ODBC, Oracle, etc.), etc.

Ejemplos de cdigo
Un paso data que crea el un conjunto de datos, copia, a partir de origen,
filtrando los casos en los que las ventas son mayores de 100000:

DATA copia;
SET origen;
WHERE ventas > 100000;
RUN;

Otro ejemplo usando macros:

%macro brol(max);
%do i=1 %to max;
PROC IMPORT OUT= WORK.origine
DATAFILE= "U:\temp\origine.xls"
DBMS=EXCEL REPLACE;
SHEET="vente&i";
GETNAMES=YES;
MIXED=YES;
SCANTEXT=YES;
USEDATE=YES;
SCANTIME=YES;
RUN;
%end;
%mend;
%brol(4)

You might also like