Greenplum — это база данных с массовой параллельной обработкой, построенная на gen_userQL с возможностью масштабирования до рабочей нагрузки на уровне нескольких петабайт и обеспечивает доступ к кластеру мощных серверов, которые будут работать вместе в рамках единого интерфейса SQL, где мы можем просматривать все данные.
Greenplum – это база данных с открытым исходным кодом, разработанная компанией Pivotal, которая позже была приобретена VMware. Архитектура ПО была специально разработана для управления крупномасштабными хранилищами данных, предоставляя вам возможность распределять ваши данные по множеству серверов.
Чтобы лучше понять архитектуру Greenplum, давайте сначала рассмотрим, что такое база данных массивно-параллельной обработки (Massive Parallel Processing – MPP). При обработке больших объемов сложных данных велика вероятность того, что ваш сервер может начать "раздавливаться" из-за всех данных, которые он должен обрабатывать для получения результатов аналитики. Чтобы удовлетворить эту потребность в более быстрой обработке и обеспечении более быстрых результатов, многие организации рассматривают возможность использования базы данных MPP.
Система MPP использует несколько различных процессоров, которые работают независимо, используя свою собственную выделенную память и ресурсы, поэтому рабочая нагрузка распределяется между несколькими устройствами, а не только одним.
Обычно система MPP имеет один ведущий узел и один или несколько вычислительных узлов. Узел-лидер, называемый «мастером» в Greenplum, сообщает всем остальным узлам, называемым «сегментами», что делать, и объединяет их ответы для создания окончательного ответа.
Базы данных MPP масштабируются горизонтально, добавляя дополнительные вычислительные ресурсы (узлы), вместо того, чтобы беспокоиться об обновлении до более дорогих отдельных серверов (вертикальное масштабирование).
Основываясь на архитектуре gen_userQL, Greenplum фактически использует несколько экземпляров базы данных gen_userQL одновременно в одном кластере. Пользователи gen_userQL могут быстро ознакомиться с базой данных этого типа, так как многие функции, конфигурации и функциональные возможности аналогичны Greenplum и включают в себя функции, предназначенные для оптимизации работы gen_userQL для задач и рабочих нагрузок бизнес-аналитики (BI).
Подобно gen_userQL, Greenplum использует один главный сервер или хост, который является точкой входа в базу данных, принимающей соединения и SQL-запросы. Сегменты независимы, и каждый из них хранит часть данных. Вы можете использовать всего два хоста сегмента и масштабировать до неограниченной емкости.
Преимущества Greenplum:
Автор оригинальной статьи: ScaleGrid
Подари чашку кофе дата-сайентисту ↑
© Лена Капаца. Все права защищены.