Professional Documents
Culture Documents
RESUMEN
El mundo de Big Data evoluciona rápido. Siempre aparecen nuevas tecnologías que
prometen gestionar y analizar grandes volúmenes de datos de una forma más rápida,
más escalable y con unos costes de implementación y mantenimiento más baratos. Lo
cierto es que de todas esas novedades.
Existen muchas características que hacen de Spark una plataforma especial, pero
podríamos englobarlas en cinco aspectos importantes: es una plataforma de código
abierto con una comunidad muy activa; es una herramienta rápida; unificada; dispone
de una consola interactiva cómoda para los desarrolladores; y también tiene una API
para trabajar con los grandes datos.
2. Datos de prueba
A continuación se pondrá una
evaluación de los flujos de datos
adquiridos por el Instituto Monash de
Tecnologías Ferroviarias (IRT) del
equipo. El conjunto de datos incluye
99.999 filas de datos registrados a partir
de sensores colocados en vagones de
ferrocarril. Para simular la transmisión
de datos de las muestras de datos Para
la prueba de tiempo de transmisión de
datos de prueba, se requiere múltiples Figura 1: Los resultados de tiempo de respuesta para la transmisión de
de diferentes tamaños grandes lotes de datos de prueba.
4. BIBLIOGRAFÍA
[1] M. Zaharia, M. Chowdhury, M. J.
Franklin, S. Shenker, I. Stoica,
and M. Zaharia, Spark: Cluster
Computing with Working Sets. .
[2] J. Damji and J. Damji, “A Tale of
Three Apache Spark APIs:
RDDs, DataFrames, and
Datasets: When to use them and
why,” databricks.com, 2016.
[3] “Introduction to big-data using
PySpark: Introduction to
(Py)Spark.” [Online]. Available:
https://annefou.github.io/pyspark/
03-pyspark_context/. [Accessed:
17-Jun-2018].
[4] J. Samosir, M. Indrawan-
Santiago, and P. D. Haghighi,
“An evaluation of data stream
processing systems for data
driven applications,” Procedia
Comput. Sci., vol. 80, pp. 439–
449, 2016.