Professional Documents
Culture Documents
II)
Para que una compañía de seguros de salud tenga ganancias, necesita recaudar más en primas
anuales de lo que gasta en atención médica a sus beneficiarios. Como resultado, las aseguradoras
invierten una gran cantidad de tiempo y dinero en el desarrollo de modelos que pronostican con
precisión los gastos médicos para la población asegurada.
Los gastos médicos son difíciles de estimar porque las condiciones más costosas son raras y
aparentemente aleatorias. Aun así, algunas condiciones son más prevalentes para ciertos
segmentos de la población. Por ejemplo, el cáncer de pulmón es más probable entre los fumadores
que entre los no fumadores, y la enfermedad cardíaca puede ser más probable entre los obesos.
Haciendo un análisis a los datos de pacientes se podría estimar los gastos promedio de atención
médica para dichos segmentos de la población. Estas estimaciones se pueden usar para crear
tablas actuariales que establecen el precio de las primas anuales más altas o más bajas,
dependiendo de los costos de tratamiento esperados.
En el libro de Brett Lantz, Machine Learning with R (2015), se describe un conjunto de datos
simulados de gastos médicos para pacientes en los Estados Unidos, donde dicha información fue
creada utilizando estadísticas demográficas de la Oficina del Censo de EE. UU. El conjunto de datos
que se encuentra en el archivo insurance.csv en la intranet, tiene 1338 observaciones y 7
variables:
datos = read.csv(file.choose())
El día de la primera práctica calificada cada estudiante debe llevar impresos los resultados
de los análisis anteriores para responder las preguntas que se haga al respecto.