Что умеют DLP? Современные технологии защиты от утечек::Приложение к журналу СА №5(2011)

В любой организации присутствует информация, которую нежелательно раскрывать посторонним лицам. Более того, для части данных существуют законы и стандарты, которые регламентируют охрану конфиденциальности, например, для коммерческой тайны или персональных данных. Ситуация усугубляется тем, что информация может быть скомпрометирована как внешними злоумышленниками, так и инсайдерами – недобросовестными или невнимательными сотрудниками. По разным данным, суммарный процент намеренных и случайных внутренних утечек отличается, но всегда превышает число утечек, произошедших в результате внешнего вторжения. Для защиты от внутренних угроз утечки можно использовать несколько технологий, важнейшие из которых:

шифрование информации на носителях и при передаче по сети;
контроль доступа к ресурсам и документам;
контроль каналов утечки информации с помощью технологии DLP (Data Loss Prevention).

В этой статье будут рассмотрены основные возможности и особенности использования систем предотвращения утечек.

Каналы утечек

Большинство утечек информации происходит вследствие кражи или потери носителя информации (в том числе мобильного устройства или ноутбука). Также данные могут быть восстановлены с компьютера или диска, которые не были должным образом отчищены при выводе их из употребления. Наконец, секретную информацию может отправить по сети различными способами как сам пользователь, так и вредоносное приложение.

Важно не только идентифицировать все каналы утечки, но и классифицировать действия пользователя. Одно дело, когда сотрудник случайно выбирает не того адресата из списка e-mail, плохо разбирается в том, какую информацию считать конфиденциальной, или теряет флешку с корпоративными данными. В этом случае использование DLP-системы оправдано и эффективно. Если же пользователь целенаправленно пытается передать данные третьим лицам, то DLP-система помешает ему это сделать стандартными средствами, но не убережет от простого запоминания и пересказа информации за пределами организации или съемки документа на фото- или видеокамеру, например, в мобильном телефоне.

При таком разнообразии каналов утечек появляются специализация и нацеленность, как целых решений, так и отдельных компонентов DLP-систем, на конкретные каналы.

Функциональность такой системы может быть разбита на три категории контроля информации:

Data-at-Rest (DAR). Защищает данные при хранении – на серверах, дисках, ленточных накопителях, в том числе информацию, хранящуюся в базах данных, на почтовых серверах или корпоративных порталах. Основным способом защиты в DAR-решениях служит шифрование.
Data-in-Motion. Обнаруживает (и в некоторых реализациях блокирует) конфиденциальную информацию, передаваемую по сети, в том числе письма, мгновенные сообщения и веб-трафик. Некоторые приложения обладают возможностью ведения архива всей переданной информации.
Data-in-Use. Контролирует действия пользователей на конечных системах, например, отправку на печать или копирование информации на внешние носители. В большинстве случаев такая функциональность реализуется за счет агентов, устанавливаемых на целевые системы.

Возможности

От DLP-системы в первую очередь требуется обнаружить или заблокировать передачу данных, запрещенных к распространению. Для этого необходимо, во-первых, распознать сами данные в передаваемом или обрабатываемом массиве битов. То есть система должна выделить информацию из текстовых файлов, баз данных, мгновенных сообщений, писем, архивов или зашифрованных файлов. Во-вторых, нужно определить, к какой категории следует отнести эту информацию – разрешенной или запрещенной к передаче.

Что касается количества форматов обрабатываемых файлов, то многие производители несколько преувеличивают данную цифру, перечисляя при этом устаревшие или неиспользуемые для хранения конфиденциальной информации форматы и считая разные версии одного и того же ПО отдельными форматами. На практике в стандартных офисных коммуникациях используется не более пары десятков форматов, и именно на их поддержку и надо обращать внимание, а не гнаться за большими цифрами.

Отдельно надо обращать внимание на поддержку работы с различными приложениями передачи данных, таких как передача мгновенных или голосовых сообщений. В последнее время приложения, использующие VoIP, получают все большее распространение и создают большую проблему для сотрудников служб безопасности. Если перехватывать и блокировать утечки через интернет-пейджеры уже научились многие DLP-решения, то анализ аудиотрафика у большинства вендоров пока вызывает затруднения. Среди современных DLP-систем к этому варианту приближается Zgate версии 3.0 (разработки SECURIT): он способен перехватывать текстовый и аудиотрафик Skype, его копия заносится в архив для дальнейшей проверки администратором при необходимости. Однако автоматизированный анализ содержания аудио еще не реализован.

DLP-решения, относящиеся к группе endpoint (конечные точки сети – рабочие станции), должны контролировать отправку на печать или копирование данных на внешние носители. Большинство таких программных продуктов имеет схожую функциональность и разграничивает доступ как минимум к USB-устройствам и локальным принтерам, как максимум – ко всем возможным портам (LPT, COM, IrDA, PCMCIA, IEEE 1394), внутренним устройствам – сетевым картам, модемам, Bluetooth, Wi-Fi, CD/DVD-дисководам, а также к локальным и сетевым принтерам. Помимо разграничения доступа, некоторые endpoint-решения также могут анализировать содержимое передаваемых документов и блокировать утечки.

Отдельное внимание стоит обратить на работу с зашифрованными данными. В случае если пользователь помещает конфиденциальный файл в зашифрованный архив, то DLP-приложение может присваивать этому архиву такой же уровень конфиденциальности, как и оригинальному документу и применять к нему аналогичные политики. Иногда, целесообразно применять к зашифрованными документам политики, которые просто блокируют передачу тех файлов, которые не может обработать DLP-система. Если же пользователь занимается ручной заменой символов в сообщении, изобретая свой собственный шифр замены, то можно применять статистические методы для обнаружения несоответствия частоты встречаемости символов для используемого языка. Частота встречаемости символов уникальным образом характеризует текст и может быть использована и для обнаружения значимых цитат в передаваемом тексте, но только в том случае, если объем текста достаточно большой.

Многие системы способны через агентов на клиентских системах перехватывать и анализировать трафик, который передается по HTTPS-соединению, до того как он был зашифрован. Другие – производить мониторинг защищенных соединений, используя поддерживаемые прокси-серверы.

Несмотря на присутствие в названии DLP слова «prevention», далеко не все DLP-решения реально предотвращают утечки. Многие продукты способны только вести журнал с оповещениями о том, что конфиденциальные данные были переданы по указанному каналу. Кроме пассивного режима работы, часть DLP-систем поддерживает активный режим, когда действительно блокируется передача информации, или режим карантина, когда подозрительные действия требуют ручной проверки.

DLP-решения могут быть использованы для того, чтобы привести систему информационной безопасности компании в соответствие с различными законами и стандартами. Большинство реализаций ориентируется на локальные стандарты. Так, например, несложно найти решение зарубежной разработки, позволяющее привести систему информационной безопасности в соответствие со стандартами защиты финансовой и медицинской информации в США HIPAA (Health Insurance Portability and Accountability Act) и SOX (Sarbanes-Oxley Act) или Директивой Евросоюза о сохранении данных Data Retention Directive.

Некоторые мировые стандарты обязательны к применению и в России, например, стандарт защиты информации в индустрии платежных карт, разработанный международными платежными системами Visa и MasterCard, Payment Card Industry Data Security Standard (PCI DSS). Но большинство зарубежных стандартов не актуальны для компаний, которые ведут бизнес только в России. Если необходимо соблюдение требований российских кодексов, законов или стандартов, то стоит обратить внимание на отечественные разработки (крупнейшие российские вендоры по оценке Anti-Malware.ru – «Инфосистемы Джет», SECURIT, InfoWatch) – кому, как не российским разработчикам, знать и учитывать в своих продуктах сложности требований нашего законодательства? Например, стандарт Банка России требует вести архив корпоративной переписки. В большинстве зарубежных продуктов архива нет, в то время как российские вендоры уделяют большое внимание этой части DLP-системы. Вне зависимости от страны происхождения программного продукта для использования в рамках проектов по федеральному закону №ФЗ-152 «О персональных данных» желательно выбирать продукт с сертификатом ФСТЭК.

Архив копий трафика также необходим при расследовании инцидентов или для текущего контроля работы системы администратором. В отсутствии архива невозможно увидеть, какие именно данные реально утекли из системы. Как правило, архив управляется через базу данных – Microsoft SQL Server или Oracle Database. Такой подход дает гибкие возможности для анализа записанных данных средствами БД, но нужно принимать во внимание, что необходимость приобретения лицензии баз данных увеличивает совокупную стоимость владения DLP-системой. Альтернативный вариант – ведение архива с использованием XML-файлов – требует наличия стороннего ПО или написания собственных скриптов, которые позволят просмотреть и проанализировать такие архивы.

Настройка DLP-системы, анализа событий, создание политик и генерация отчетов осуществляются через консоль управления. Для этого может быть использован веб-интерфейс, доступный с любого компьютера, на котором есть браузер, но требует установки веб-сервера. В некоторых DLP-системах реализована консоль в виде отдельного приложения, которая зачастую обладает более наглядными и функциональными элементами управления, чем веб-интерфейс.

В большинстве случаев для настройки системы используются политики, среди которых могут быть постоянные, временные или разовые. Для них можно задавать расписание, в рамках которого она действует. Кроме этого, разовые политики могут быть применены в течение конкретной сессии или на время подключения конкретного устройства. При необходимости настройки политик можно сохранить в файл и применять повторно.

Методы анализа информации

Самая важная характеристика DLP-решения – это методы анализа и классификации информации, то есть каким образом система определяет наличие конфиденциальных данных. Существует несколько известных технологий анализа, из которых в каждой отдельной системе обычно применяется две-три. На практике чем больше технологий встроено в систему, тем выше оказывается точность обнаружения конфиденциальных данных.

Для классификации документов могут быть использованы метки. Этот метод позволяет быстро анализировать документы, так как применяются элементарные проверки на наличие конкретной метки. Технология не подвержена ложным срабатываниям только в том случае, если метки расставлены на все документы. Самое сложное, это определить процедуру расстановки меток и их снятия с документов. В итоге процедура может свестись к ручной классификации документов, что делает этот метод не эффективным.

Сигнатуры или регулярные выражения хорошо применимы для данных с фиксированной структурой – номера паспортов и кредитных карт, IP-адреса или телефоны. Но при целенаправленных действиях инсайдера такие проверки легко обойти, например, просто вставив лишние пробелы.

При работе с текстом очень важно учитывать особенности языка. Если решение не поддерживает используемый в документах язык, то оно практически бесполезно при анализе, если только не перечислять все словоформы вручную. Лингвистические методы, в особенности морфология, достаточно эффективны для анализа русскоязычных документов. По этой причине DLP-продукты зарубежных вендоров, как правило, не подходят для контентного анализа на российской почве.

Для анализа текстовой информации также используются методики, зарекомендовавшие себя в других областях, связанных с классификацией информации, например, применяемые в поисковых системах или при фильтрации спама. Так, метод Байеса, успешно применяемый в большинстве антиспам-решений, работает и в DLP-системах. Отличительной особенностью метода Байеса является возможность самообучения, которая существенно расширяет сферу его применения. Например, разработка компании SECURIT – технология SmartID накапливает результаты анализа и постоянно повышает точность классификации информации. После первоначального обучения и недели работы точность распознавания конфиденциальной информации может превышать 95%. Подобная самообучающаяся система под названием Vector Machine Learning была недавно представлена в пакете Symantec DLP 11: как и SmartID, она изучает характеристики секретных документов на примерах, показывающих, какие характеристики отличают секретные данные от несекретных, и в дальнейшем самостоятельно идентифицирует данные, доступ к которым должен быть ограничен.

Метод цифровых отпечатков (digital fingerprints) применяется для обнаружения передачи стандартных документов, которые меняются несущественно. Так, например, легко выявить шаблоны или заполненные договоры, отличающиеся только данными сторон. Для эффективной работы отпечатков необходимо указать образцы конфиденциальных документов, с которых система «снимает» цифровые отпечатки и в дальнейшем сопоставляет с ними файлы, передаваемые за пределы сети предприятия, и определяет процент соответствия. Если он превышает настроенный показатель порога, система определяет сообщение как утечку.

Все перечисленные выше методы предназначены для анализа текстовой информации и не слишком эффективны при выявлении конфиденциальной информации в чертежах или аудиофайлах.

Также эти методы не эффективны, если использовать рукописные тексты или отсканированные документы. Для таких данных необходимо сначала распознать текст и только потом его анализировать. Если же не представляется возможным проанализировать данные в конкретном формате программными средствами, то при необходимости можно сделать это вручную, просмотрев файлы, сохраненные в архиве, который должен быть в любом серьезном DLP. В архив можно записать сообщения в любых форматах и впоследствии использовать эти записи для отслеживания потоков информации или расследования инцидентов.

При выборе DLP-решения не стоит забывать и про стандартные для любых приложений характеристики – производительность и интеграция с другими решениями.

***

Эффективная работа DLP-системы зависит не только от функциональности внедренного продукта, но и едва ли не больше от правильной настройки. Поэтому внедрение DLP-системы – в большинстве случаев длительный процесс. Кроме того, уже работающая DLP-система требует постоянного контроля работы на «боевом» трафике организации и оптимизации в соответствии с выявленными инцидентами. Только совместное использование различных технологий при плотном взаимодействии разработчика и заказчика может дать приемлемый результат, а не бесполезную трату ресурсов.

Как показывает практика, при правильной работе DLP-система уже в первый месяц позволяет составить полную картину обращения сотрудников с конфиденциальной информацией, выявить конкретных нарушителей и даже пресечь реальные инциденты.