Рубрика:
Базы данных /
Особенности продукта
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
АЛЕКСАНДР КАЛЕНДАРЕВ, РБК Медиа, программист, akalend@mail.ru
Использование Cassandra в системах сбора и анализа данных
В статье рассмотрены плюсы и минусы NoSQL Cassandra на примере использования в системах сбора и анализа данных
Введение в Cassandra
Частой задачей многих специализированных веб-проектов является сбор данных для последующего их анализа. При большом потоке входных данных их сохранение втрадиционных RMDB может стать проблемой. В таких случаях лучше использовать нереляционные БД, которые называют NoSQL (т.е. не SQL БД). Одной из таких NoSQL-систем хранения и является Cassandra.
Cassandra (далее по тексту С*) относится к семейству поколоночных (ColumnFamily) NoSQL-хранилищ данных [1]. Основным свойством данного типа баз данных является быстрая вставка данных. Поэтому рационально их использовать в системах сбора и логирования информации для ее дальнейшего анализа. Второй важной особенностью C* является то, чтоэто кластерное решение, и разработчику не нужно задумываться о масштабировании, все «работает из коробки». По этим двум причинам и рационально ее использовать в системах сбольшим потоком входных данных: баннерные, рекламные или партнерские сети, счетчики интернет-статистики, разного рода телеметрические системы.
Данные в C* хранятся в виде колонок, которые представляются как ключ, значение и время сохранения (timestamp). Сохранность данных осуществляется их дублированием наразные узлы кластера. При настройке кластера нам необходимо задать коэффициент дублирования, еще его называют уровнем репликации.
По умолчанию значение уровня репликации равно трем. Это значит, что одни и те же данные будут храниться на трех разных узлах кластера, и при выходе из строя одного из узлов данные будут взяты с другого узла. C* – это надежное хранилище данных.
В соответствии с теоремой CAP [2] в кластерных распределенных системах одновременно невозможно иметь согласованные и не противоречивые данные. Поэтому при настройке кластера выбираются разные уровни согласованности:
- QUORUM – данные отдаются на клиент, когда поступят от узлов, в соответствии со значением уровня репликации отдаются самые последние данные, осуществляется сравнение по timestamp.
- LOCAL_QUORUM – аналог QUORUM, но в пределах кластера.
- ALL – данные отдаются на клиент, когда поступят от всех узлов, обеспечивается наивысший уровень согласованности, отдаются самые последние данные.
- ANY – данные отдаются на клиент, когда поступят от любого узла, но все узлы кластера должны быть доступны. Это низкий уровень согласованности.
- ONE – данные отдаются на клиент, когда поступят от первого отозвавшегося узла.
- TWO – данные отдаются на клиент, когда поступят от двух отозвавшихся узлов, отдаются самые последние данные, сравнение по timestamp.
- THREE – аналог TWO, но применительно к трем узлам.
При использовании разных уровней согласованности осуществляется разная скорость отдачи. Самая быстрая – при установке значения уровня согласованности в ONE и самая медленная – при установке в ALL.
Еще одной важной особенностью С* является возможность связи географически разнесенных кластеров, т.е. мы можем связать несколько кластеров, находящихся в разных дата-центрах.
Итак, C* – это высоконадежное, хорошо масштабируемое, распределенное хранилище данных с архитектурой взаимодействия узлов peer-to-peer (каждый с каждым). Оно хорошо подходит для систем сбора информации, так как вставка в традиционные РСУБД, основанные на b-tree, происходит относительно медленно, особенно на больших объемах информации.
Статью целиком читайте в журнале «Системный администратор», №01-02 за 2016 г. на страницах 76-81.
PDF-версию данного номера можно приобрести в нашем магазине.
- Календарев А. NoSQL как он есть. // «Системный администратор», №11, 2013 г. – С. 51-55 (http://samag.ru/archive/article/2567).
- Календарев А. CAP-дилеммa. Быстро, качественно или дешево? // «Системный администратор», №12, 2013 г. – С. 44-45 (http://samag.ru/archive/article/2589).
- Силаков Д. Проект Docker. Управляем виртуальными окружениями. // «Системный администратор», №3, 2015 г. – С. 10-14 (http://samag.ru/archive/article/2887).
- Календарев А. Новое в Tarantool. // «Системный администратор», №1-2, 2015 г. – С. 67-71 (http://samag.ru/archive/article/2868).
- Календарев А. Кролик в песочнице. // «Системный администратор», №11, 2015 г. – С. 60-65 (http://samag.ru/archive/article/3074).
- Сайт проекта Сassandra – http://cassandra.apache.org.
- Официальная документация – http://docs.datastax.com/en/cassandra/3.0/cassandra/cassandraAbout.html.
- PHP-драйвер для начинающих – https://academy.datastax.com/demos/getting-started-apache-cassandra-and-php.
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|