Homogeneous and heterogeneous architecture for distributed processing of unstructured data with framework hadoop
Contenido principal del artículo
Resumen
Se requiere nueva tecnología de almacenamiento, para el contexto de sensores, Web 2.0-YouTube, internet de las cosas, redes sociales (facebook, twitter, whatsApp), conllevando exponencialmente a grandes volúmenes de datos, al tratamiento de velocidades extramadanente rápidas y son datos de formatos que no tienen estructura. En compendio se genera un desafío en una dicción titulada “Big Data”, que el SQL no satisface. La propuesta es diseñar e implementar un servidor de mejor prestación para “Big Data”, logrando así dos clústeres de arquitectura de 10 PC homogéneas y 10 PC heterogéneas basados en el framework Hadoop bajo el modelo cliente/servidor en base a Hardware Commodity, HDFS que almacena de manera distribuidad y YARN que procesa en paralelo con el modelo de programación MapReduce. para ello se descargo el código binario de Hadoop 2.9.2, se instalo en sistema operativo RedHat-CentOS7, se compiló el JDK, logrando configurar Java, continuamos con la seguridad SSH-RSA, creando así un servidor de mejores prestaciones para “Big Data”. Las pruebas de rendimiento se realizaron en nuestro servidor localhost, con una población de 6.4 GB y 12.8 GB. Estimando integrar un servidor con PC de escritorio convencionales, como máximo 4000 nodos y no solo con las mismas características de PC.
Detalles del artículo
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Cuando un autor crea un artículo y lo publica en una revista, los derechos de autor pasan a la revista como parte del acuerdo de publicación. Por lo tanto, la revista se convierte en la dueña de los derechos de reproducción, distribución y venta del artículo. El autor conserva algunos derechos, como el derecho a ser reconocido como el creador del artículo y el derecho a utilizarlo para sus propios fines académicos o de investigación, a menos que se acuerde lo contrario en el contrato de publicación.
Cómo citar
Referencias
K. Rattanaopas y S. Kaewkeeree(2017). Mejora del rendimiento de Hadoop MapReduce con compresión de datos: un estudio con Wordcount Job, Thailandia: IEEE.
J. Bhimani y M. Leeser(2017). Aceleración de aplicaciones de big data utilizando un marco de virtualización ligero en la nube empresarial, Waltham,USA: IEEE.
A. Shah y M. Padole(2018). Equilibrio de carga a través de la política de reorganización de bloques para el clúster heterogéneo de Hadoop, India: IEEE.
Revista 2015 Universidad Politécnica de Madrid.
Augsburger Becerra.
M. A. (2014) PARALELIZACIÓN DE UN ALGORITMO PARA LA DETECCIÓN DE CÚMULOS Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ciencias de la Computación.
C. Verma (2016). Big Data representation for Grade Analysis Through, 6th International Conference - Cloud System and Big Data Engineering (Confluence)
R. K. Sidhu(2016). Efficient Batch Processing of Related Big Tasks using Persistent MapReduce, India: ACM.
S. Prabhu (2015). Performance Enhancement of Hadoop MapReduce Framework for Analyzing BigData, India: IEEE.
M. R. Ghazi(2015), Hadoop, MapReduce and HDFS: A Developers Perspective, India: ELSEVIER.
Jean-Pierre (2013). ORACLE: BIG DATA FOR THE ENTERPRISE RED WOOD: ORACLE ENTERPRISE
Sanjay Agrawal (2014). AN EXPERIMENTAL APPROACH TOWARDS BIG DATA FOR ANALYZING MEMORY UTILIZATION ON A HADOOP CLUSTER USING HDFS AND MAPREDUCE. First International Conference on Networks & Soft Computing.
A López Borrull, A Canals (2013). LA COLABORACIÓN CIENTÍFICA EN EL MARCO DE NUEVAS PROPUESTAS CIENTÍFICAS: BIG DATA. Universitat Oberta de Catalunya.
Melanie Swan (2015). PHILOSOPHY OF BIG DATA. First International Conference on Big Data Computing Service and Applications