ClickHouse в системах сбора статистики::Журнал СА 3.2017
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Дата-центры  

Дата-центры: есть ли опасность утечки данных?

Российские компании уже несколько лет испытывают дефицит вычислительных мощностей. Рост числа проектов,

 Читать далее...

Книжная полка  

Защиты много не бывает

Среди книжных новинок издательства «БХВ» есть несколько изданий, посвященных методам социальной инженерии

 Читать далее...

Событие  

В банке рассола ждет сисадмина с полей фрактал-кукумбер

Читайте впечатления о слете ДСА 2024, рассказанные волонтером и участником слета

 Читать далее...

Организация бесперебойной работы  

Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты

 Читать далее...

Книжная полка  

Читайте и познавайте мир технологий!

Издательство «БХВ» продолжает радовать выпуском интересных и полезных, к тому же прекрасно

 Читать далее...

СУБД PostgreSQL  

СУБД Postgres Pro

Сертификация по новым требованиям ФСТЭК и роль администратора без доступа к данным

 Читать далее...

Критическая инфраструктура  

КИИ для оператора связи. Готовы ли компании к повышению уровня кибербезопасности?

Похоже, что провайдеры и операторы связи начали забывать о требованиях законодательства

 Читать далее...

Архитектура ПО  

Архитектурные метрики. Качество архитектуры и способность системы к эволюционированию

Обычно соответствие программного продукта требованиям мы проверяем через скоуп вполне себе понятных

 Читать далее...

Как хорошо вы это знаете  

Что вам известно о разработках компании ARinteg?

Компания ARinteg (ООО «АРинтег») – системный интегратор на российском рынке ИБ –

 Читать далее...

Графические редакторы  

Рисование абстрактных гор в стиле Paper Cut

Векторный графический редактор Inkscape – яркий представитель той прослойки open source, с

 Читать далее...

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 6413
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 7117
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 4395
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 3086
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3881
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3897
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6385
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3233
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3529
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7364
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10725
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12445
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 14096
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9192
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 7141
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5446
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4683
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3495
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 3212
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 3449
Комментарии: 0
Рецензия на книгу «MongoDB в действии»

 Читать далее...

02.12.2013г.
Просмотров: 3090
Комментарии: 0
Не думай о минутах свысока

 Читать далее...

Друзья сайта  

 ClickHouse в системах сбора статистики

Архив номеров / 2017 / Выпуск №3 (172) / ClickHouse в системах сбора статистики

Рубрика: Базы данных /  Инструменты

Александр Календарев АЛЕКСАНДР КАЛЕНДАРЕВ, OTG, руководитель группы (ТимЛид), akalend@mail.ru

ClickHouse в системах сбора статистики

Еще не прошло и полгода, как компания Yandex открыла исходный код cвоей аналитической БД ClickHouse, а сегодня на GitHub она уже завоевала 1500+ лайков. Попытаемся разобраться, зачем нужна БД и как ей пользоваться, на примере системы сбора статистики

Возможности ClickHouse

ClickHouse [1] была разработана в рамках проекта Яндекс.Метрики, являющегося второй по величине в мире системой веб-аналитики. ClickHouse принадлежит семейству колоночных СУБД. Система хранения данных колоночных СУБД предполагает хранение данных не по записям (одна запись одна строка), как это реализовано у классических СУБД типа Oracle, MS SQL Server, MySQL, PostgreSQL и т.д., а по колонкам, т.е. у колоночных БД данные привязываются к значениям колонки, которая является первичным ключом.

Ниже представлен пример построчного хранения данных:

host timestamp p1 p2
127.0.0.1 1488621674 2 a
127.0.0.2 1488621674 5 a
127.0.0.21 1488621675 1 f
127.0.0.27 1488621675 5 b

Эти же данные хранятся поколоночно в следующем порядке:

host
127.0.0.1
127.0.0.2
127.0.0.21
127.0.0.27
 
p1
2
5
1
5
 
timestamp
1488621674
1488621674
1488621675
1488621675

Примеры колоночных БД: Cassandra, Hbase, MonetDB, Vertica, Paraccel, Sybase IQ, Exasol, Infobright, InfiniDB, LucidDB, SAP HANA, Google Dremel, Google PowerDrill, Druid, kdb+ ит.п.

Разный порядок хранения данных лучше подходит для разных сценариев работы СУБД. Не существует серебряной пули, одинаково хорошо подходящей под существенно различные нужды пользователей. Чем больше нагрузка на систему, тем более важной становится специализация под данный сценарий работы. Специфика колоночных БД такова, что они очень быстры на запись, что очень важно для систем, разработанных под большие нагрузки.

Для онлайн-обработки аналитических запросов предполагается следующий сценарий работы:

  • подавляющее большинство запросов на чтение;
  • данные обновляются достаточно большими пакетами (> 1000 строк), а не по одной строке;
  • данные могут не обновляются вообще;
  • данные добавляются в БД, но не изменяются;
  • при чтении вынимается достаточно большое количество строк из БД, но только небольшое подмножество столбцов;
  • таблицы являются «широкими», т.е. содержат большое количество столбцов;
  • запросы идут сравнительно редко (обычно не более сотни в секунду на сервер);
  • при выполнении простых запросов допустимы небольшие задержки;
  • значения в столбцах небольшие: числа и короткие строки (до 64 байт);
  • требуется высокая пропускная способность при обработке одного запроса;
  • транзакции отсутствуют;
  • низкие требования к консистентности данных;
  • в запросе одна большая таблица, все таблицы, кроме одной, маленькие;
  • результат выполнения запроса существенно меньше исходных данных, т.е. данные фильтруются или агрегируются;
  • результат выполнения помещается в оперативку на одном сервере.

Если в ваших проектах требуется система с вышеперечисленными критериями, то эта система для вас.

Если бы мне пришлось вновь заняться архитектурой разработки систем учета партнерских программ, то мой выбор остановился бы на ClickHouse. Кратко рассмотрим, что собой представляет «партнерка». Есть множество рекламодателей, которым необходимо продать свой товар. Есть большое множество владельцев веб-сайтов, которые размещают на своих сайтах JS-код партнерской программы. Есть множество пользователей, которые посещают эти сайты, кликают по баннерам, показывающимся JS-кодом «партнерки», и приобретают товары или услуги. Все эти клики, посещения или покупки учитываются партнерской системой и владельцы веб-сайтов получают свою комиссию.

Рассмотрим «партнерку» с технической точки зрения. При переходе с сайта партнера (владельца веб-сайта) на «партнерку» необходимо учесть клик, в котором содержится информация: с какого сайта (site_id) был осуществлен переход, номер баннера (banner_id), по которому кликнул пользователь, и учетный номер партнерской программы (partner_id), по которой идет учет и выплачиваются гонорары и комиссии.

Для сбора статистики необходимо учесть по кликам следующие данные:

  • site_id – сайт, с которого осуществлен переход, передается в url;
  • webmaster_id – ID владельца сайта, вычисляется из site_id;
  • banner_id – номер баннера, с которого осуществлен переход, передается в url;
  • partner_id – номер партнерской программы, передается в url;
  • client_id – ID рекламодателя, вычисляется из partner_id.
  • timestamp – время осуществления клика;
  • ua – User Agent;
  • ip – IP-адрес;
  • latitude, lontitude – геокоординаты пользователя.

Как это работает: при переходе на «партнерку» по ссылке с баннера из быстрого key-value-хранилища в основном используют Redis, по ключу site_id:partner_id извлекается недостающая информация: webmaster_id, client_id, адрес перехода, учитывается клик, которому присваивается уникальный номер, формируется адрес перехода и осуществляется сам переход по url, в котором передается некая информация, включающая click_id. К сожалению, в рамках данного материала мы не рассматриваем алгоритмы показа баннера, учитывающие интересы пользователя.

Если пользователь приобрел товары или услуги, то партнер (рекламодатель) делает так называемый кэллбэк, в котором указывает номер заказа, сумму или величину комиссии (определяется типом партнерской программы). Эта информация также учитывается, но уже в таблице лидов.

Статью целиком читайте в журнале «Системный администратор», №1-2 за 2017 г. на страницах 56-59.

PDF-версию данного номера можно приобрести в нашем магазине.


  1. https://clickhouse.yandex/reference_ru.html – официальная документация.
  2. https://github.com/yandex/ClickHouse – открытый код проекта.
  3. https://hub.docker.com/r/yandex/clickhouse-server – doc clicks_3shardsker-образ ClickHouse-сервера.
  4. https://hub.docker.com/r/yandex/clickhouse-client – docker-образ ClickHouse-клиента.
  5. http://www.cs.umb.edu/~poneil/lsmtree.pdf – слабо структурированное дерево LSM.
  6. https://github.com/8bitov/clickhouse-php-client – PHP-клиент.
  7. https://github.com/smi2/phpClickHouse – еще один PHP-клиент.
  8. https://habrahabr.ru/company/yandex/blog/303282 – статья на «Хабре» в блоге компании Yandex про ClickHouse.

Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru