POSTGRESQL Y BIG DATA

¿Qué es el Big Data?

Un estudio realizado a 20 compañías de gran envergadura por el Instituto Internacional para el Análisis de Estados Unidos llegó a la siguiente conclusión:

El Big Data trata de la variedad, no de volumen: la encuesta indica que las empresas se centran en el variedad de datos, no en su volumen, tanto hoy como hace tres años. El objetivo más importante y la recompensa potencial de las iniciativas del big data es la capacidad de analizar diversas fuentes de datos así como los nuevos tipos de datos, no la gestión de grandes conjuntos de los mismos “.

La pregunta que nos hacemos a continuación es cómo procesamos toda esa cantidad y variedad de datos que producimos, o si lo llevamos a un ejemplo más real, cómo hace una gran compañía como el Bank of America para procesar sus 2,2 trillones de activos (2012) y sus 50 millones de clientes.

Aquí es donde entran en juego la tecnología hoy en día existente de los sistemas gestores de bases de datos (SGBD). Una alternativa para el procesamiento de toda esa información podría ser Postgre SQL. PostgreSQL es un sistema de gestión de bases de datos relacional orientado a objetos y libre.

Como muchos otros proyectos de código abierto, el desarrollo de PostgreSQL no es manejado por una empresa y/o persona, sino que es dirigido por una comunidad de desarrolladores que trabajan de forma desinteresada, altruista, libre y/o apoyada por organizaciones comerciales.

Características de PostgreSQL


PostgreSQL, en su nueva versión 9.5 incluye varias características que aseguran que continúa teniendo un papel muy importante en las bases de datos de código abierto capaces de procesar grandes volúmenes de información. Entre ellos están:
  • Indexación BRIN: Este nuevo tipo de índice permite que las tablas que contienen datos de registro con miles de millones de filas se podrían indexar y buscar en el 5% del tiempo requerido por los índices antiguos.
  • Clasificaciones más rápidas: PostgreSQL ahora ordena texto y datos numéricos más rápido, usando un algoritmo llamado “teclas abreviadas”. Esto hace que algunas consultas que necesitan para ordenar grandes cantidades pueden verse aceleradas 20 veces más rápido.
  • CUBE, ROLLUP y GROUPING SETS: Estas nuevas cláusulas SQL estándar permiten a los usuarios generar informes con múltiples niveles de resumen en una sola consulta en lugar de requerir varios. CUBO también permitirá integrar fuertemente PostgreSQL con más herramientas de informes en línea, tales como Tableau.
  • Foreign Data Wrappers (FDWs): los FDWs permiten el uso de PostgreSQL como motor de consulta para otros sistemas de grandes volúmenes de datos, tales como Hadoop y Cassandra. La versión 9.5 añade importación de esquemas externos y unirse a conexiones de consulta a bases de datos externas.
  • TABLESAMPLE: Esta cláusula SQL permite escoger una muestra estadística rápida de grandes tablas, sin necesidad de clasificación previa.
Como vemos, PostgreSQL se ha convertido en una herramienta muy eficaz para el procesamiento de grandes volúmenes de información del Big Data. Estaría bien que, si no lo ha hecho ya, el Bank of America se planteara seriamente este sistema gestor de bases de datos relaciones como alternativa para procesar su información.

Fuente: http://geoinnova.org

Para que ste blog siga creciendo:


Visitenos en:

Instagram