Эффективное использование памяти в Perl при работе с большими строками::Журнал СА 1.2002
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Дата-центры  

Дата-центры: есть ли опасность утечки данных?

Российские компании уже несколько лет испытывают дефицит вычислительных мощностей. Рост числа проектов,

 Читать далее...

Событие  

В банке рассола ждет сисадмина с полей фрактал-кукумбер

Читайте впечатления о слете ДСА 2024, рассказанные волонтером и участником слета

 Читать далее...

Организация бесперебойной работы  

Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты

 Читать далее...

Книжная полка  

Читайте и познавайте мир технологий!

Издательство «БХВ» продолжает радовать выпуском интересных и полезных, к тому же прекрасно

 Читать далее...

СУБД PostgreSQL  

СУБД Postgres Pro

Сертификация по новым требованиям ФСТЭК и роль администратора без доступа к данным

 Читать далее...

Критическая инфраструктура  

КИИ для оператора связи. Готовы ли компании к повышению уровня кибербезопасности?

Похоже, что провайдеры и операторы связи начали забывать о требованиях законодательства

 Читать далее...

Архитектура ПО  

Архитектурные метрики. Качество архитектуры и способность системы к эволюционированию

Обычно соответствие программного продукта требованиям мы проверяем через скоуп вполне себе понятных

 Читать далее...

Как хорошо вы это знаете  

Что вам известно о разработках компании ARinteg?

Компания ARinteg (ООО «АРинтег») – системный интегратор на российском рынке ИБ –

 Читать далее...

Графические редакторы  

Рисование абстрактных гор в стиле Paper Cut

Векторный графический редактор Inkscape – яркий представитель той прослойки open source, с

 Читать далее...

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

Книжная полка  

От создания сайтов до разработки и реализации API

В издательстве «БХВ» недавно вышли книги, которые будут интересны системным администраторам, создателям

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 6241
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 6947
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 4233
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 3015
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3813
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3829
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6324
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3174
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3468
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7285
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10652
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12371
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 14008
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9132
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 7084
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5395
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4624
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3434
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 3165
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 3406
Комментарии: 0
Рецензия на книгу «MongoDB в действии»

 Читать далее...

02.12.2013г.
Просмотров: 3031
Комментарии: 0
Не думай о минутах свысока

 Читать далее...

Друзья сайта  

 Эффективное использование памяти в Perl при работе с большими строками

Архив номеров / 2002 / Выпуск №1 (1) / Эффективное использование памяти в Perl при работе с большими строками

Рубрика: Администрирование /  Продукты и решения

ДАНИИЛ АЛИЕВСКИЙ

Эффективное использование памяти в Perl при работе с большими строками

Обычно при программировании в Perl не приходится задумываться о расходе памяти. Этот язык содержит достаточно качественную систему сборки мусора. Кроме того, при исполнении Perl-программ как обычных CGI-сценариев, с запуском интерпретатора Perl на каждое обращение к скрипту, вся использованная память гарантированно освобождается при завершении скрипта.

Но если Perl-скрипт обрабатывает действительно большие данные,— скажем, мегабайтные текстовые файлы – проблема разумного использования памяти может стать достаточно актуальной. Особенно это важно, если скрипт исполняется под управлением mod_perl или аналогичной среды. Если всецело положиться на встроенный сборщик мусора, может неожиданно оказаться, что процессы веб-сервера, исполняющие скрипты с помощью mod_perl, с каждым вызовом начинают занимать все больше памяти – вплоть до десятков мегабайт, постепенно поглощая всю свободную RAM.

Я столкнулся с этой проблемой, когда реализовывал под mod_perl сложный скрипт, предназначенный для обработки и парсинга произвольных HTML-страниц. Основным типом данных в скрипте были обычные текстовые строки. Поначалу я обращался со строками очень свободно, как это и принято в Perl и подобных языках, не задумываясь пользовался функцией substr; конкатенацией строк; регулярными выражениями; писал функции, возвращающие в результате строку (HTML-текст веб-страницы), и т.п. Привело это к тому, что типичный HTTPD-процесс с mod_perl (веб-сервер Apache на UNIX) тратил только на обрабатываемые данные в среднем несколько мегабайт. Это при том, что типичный размер HTML-страницы, которую следовало обработать, составлял всего 20-30 Кб. А когда я попробовал «пропустить» через свою программу 10-мегабайтный HTML – HTTPD-процесс «съел» 100 Мб. При этом возникало впечатление утечки памяти – процессы, по мере своей «жизни», занимали все больше и больше обьема памяти.

В процессе тестирования и экспериментов я выявил общие проблемы, возникающие в Perl при работе с большими данными, и нашел способы их решения. После соответствующего переписывания, мой скрипт стал потреблять адекватное количество памяти, а утечка памяти прекратилась.

Результаты своих исследований я предлагаю вашему вниманию.

Итак, имеют место 2 основные общие проблемы.

Проблема I

Свободное употребление Perl-средств для работы со строками – regexp, substr, конкатенаций типа $a.$b или "$a$b" – приводит к порождению лишних копий строки, т.е. там, где по логике вещей алгоритму должно хватить 2 Мб, будет потрачено 5 или 10 Мб.

Проблема II

Если не предпринять специальных усилий, то после завершения Perl-функции рабочая память, израсходованная в этой функции, не будет освобождена! (Ситуация совершенно отличная от традиционной практики в языках без сборки мусора типа C++ или Pascal, когда все рабочие переменные, созданные внутри функции, уничтожаются при выходе из функции.)

Это не так важно в обычном CGI-скрипте, исполняемом внешним интерпретатором Perl. По завершении скрипта процесс будет полностью уничтожен вместе со всей своей памятью. Но в mod_perl или FastCGI, или в независимых приложениях, или серверах на Perl это очень существенно.

Обратите внимание – описанная проблема не есть истинная утечка памяти. Встроенный сборщик мусора действительно обеспечивает утилизацию ненужных переменных. Просто он делает это не совсем так, как можно было бы ожидать. А именно: занятая память будет использована повторно при следующем вызове той же самой функции, т.е. многократные повторные вызовы функции не будут приводить к постепенному исчерпанию RAM – явлению, которое традиционно называется утечкой памяти. Зато многократные вызовы приведут к другому: со временем будет занят наибольший объем памяти из всех, которые были нужны при различных вариантах вызова этой функции. В моем случае, после того как мои Perl-функции один раз обработали HTML-страницу размером 10 Мб и соответствующий процесс с mod_perl «съел» 100 Мб, он так и продолжал всегда занимать 100 Мб, хотя все последующие обрабатываемые страницы были небольшими. Внешне такое поведение очень похоже на утечку – объем памяти, занятый процессом, никогда не уменьшается, но постепенно медленно увеличивается – по мере того как этому процессу случайно попадаются данные все большего размера.

Теперь рассмотрим конкретные типовые задачи, возникающие при обработке данных в Perl. Я приведу примеры традиционного решения этих задач – неправильного в свете описанных проблем – и возможные варианты аккуратного решения, не приводящие к перерасходу памяти.

1. Как завести внутри функции большую временную текстовую переменную, а перед выходом из функции освободить память из-под нее?

Неправильное решение:

sub a {

  my $text= "very large string.... (1 MB)";

  работаем с $text;

    #просто выходим из функции, предполагая, что сборщик мусора автоматически освободит

    #память из-под $text (как это происходит со стековыми переменными в C++ и Pascal)

}

Правильное решение – добавить перед выходом вызов undef:

sub a {

  my $text= "very large string.... (1 MB)";

  работаем с $text;

  undef $text;

}

Вызов undef освободит память, занятую переменной $text. Без такого вызова получаем общую проблему II).

2. Функция должна создать большую строку и вернуть ее в результате

Неправильное решение:

sub a {

  my $text= "very large string.... (1 MB)";

  return $text;

}

my $v= a();

работаем с $v;

Такой Perl-код «съест» не 1 Мб, действительно необходимый для сохранения переменной $v, а 2 Мб. Лишний мегабайт будет занят интерпертатором Perl при вычислении строкового выражения «a()» для последующего копирования этих данных в переменную $v.

Мегабайт, занятый $v, можно впоследствии освободить вызовом «undef $v», но мегабайт, занятый при вычислении строкового выражения в правой части, по-моему, уже не освободить никак.

Правильное решение – функция должна вернуть ссылку на созданную большую строку:

sub a {

  my $text= "very large string.... (1 MB)";

  return $text;

}

my $v= a();

работаем с $$v;

undef $$v; #освобождаем память, отведенную функцией a

Такой код «съест» только 1 Мб, который освободится при вызове undef.

Проблема на самом деле довольно общая: никогда не следует писать выражение, результат которого – большая строка. Нельзя писать даже так:

my $v= $text." ";

если строка $text потенциально может быть большой (десятки килобайт или больше).

3. Как передать большую строку в функцию?

Неправильное решение:

sub a {

  my $text= $_[0]; #параметр $_[0] содержит строку длиной 1 MB

  работаем с $text;

  undef $text;

}

my $text= "very large string.... (1 MB)";

a($text);

В этом примере общей проблемыII нет, но память расходуется напрасно. Оператор присваивания $text= $_[0] расходует второй мегабайт под копию $text переменной $_[0] (который освобождается в конце вызовом «undef»).

Если есть возможность, лучше работать непосредственно с $_[0] – т.е. с алиасом внешней переменной. А еще лучше – нагляднее – всегда передавать большие строки по ссылке.

Предлагаемое правильное решение:

sub a {

  my $text= $_[0]; #параметр $_[0] содержит ССЫЛКУ на строку

  работаем с $$text;

}

my $text= "very large string.... (1 MB)";

a($text);

4. Как выполнить конкатенацию нескольких строк, одна из которых может быть очень большой?

Неправильное решение:

my $newtext= "$a$text$b";

или

my $newtext= $a.$text.$b;

Если строка $text велика, то подобный код «съест» память, которую нельзя освободить (см. задачу 2).

Правильное решение – конкатенировать по очереди:

my $newtext= $a;

$newtext.= $text;

$newtext.= $b;

5. Как удалить/заместить небольшую подстроку в очень большой строке?

Неправильное решение:

my $text= "very large string.... (1 MB)";

$text= substr($text,10);

Такой код потратит лишний неосвобождаемый мегабайт при вычислении выражения substr($text,10) – см. задачу 2.

Правильное решение – использовать так называемую «магию lvalue»:

my $text= "very large string.... (1 MB)";

substr($text,0,10)= "";

Правда, в документации написано, что Perl 5.004 в этом случае работал неэффективно. Но начиная с Perl 5.005 это работает прекрасно: лишняя память не расходуется.

Эквивалентное правильное решение – использовать 4-й параметр substr:

my $text= "very large string.... (1 MB)";

substr($text,0,10,"");

Но если предыдущий вариант в Perl 5.004 работает неэффективно, то такой вариант в Perl 5.004 вообще не скомпилируется.

6. Как выделить в большой строке большую подстроку? Скажем, как в мегабайтной строке выделить полумегабайтную подстроку, начиная со смещения 100 000?

По описанным выше причинам следующий очевидный код неправилен:

my $text= "very large string.... (1 MB)";

$text= substr($text,100000,500000);

В таком решении при вычислении «substr($text,100000,500000)» расходуются лишние полмегабайта, которые впоследствии невозможно освободить.

Для этой задачи я не нашел краткого и изящного решения. Возможный корректный подход использует следующую функцию substrlarge:

sub substrlarge {

# - Returns a reference to substr($_[0],$_[1],$_[2])

# and doesn"t use extra memory when $len is very large

# Example:

#     my $ps= substrlarge($text,500,1000000);

#     some actions with $$ps;

#     undef $$ps;

# - it is an economical equivalent for

#     my $s= substr($text,500,1000000);

#     some actions with $s;

  my $offset= $_[1];

  my $len= $_[2];

  $len= length($_[0])-$offset unless defined $len;

  if ($len*2

    my $k= 0;

    my $r= "";

    for (;$k<$len;$k+=32768) {

      $r.= substr($_[0],$offset+$k,$k+32768<=$len?32768:$len-$k);

    }

    return $r;

  } else {

    my $r= $_[0];

    substr($r,0,$offset)= "";

    substr($r,$len)= "" if defined $_[2];

    return $r;

  }

}

Если нужно выделить сравнительно небольшой фрагмент исходной строки (в данной реализации – меньше половины общей длины), то нужный фрагмент конструируется циклом, блоками по 32 Кб. Потеря памяти при этом составляет порядка 32 Кб – столько расходует вычисление выражения «substr($_[0],...)» внутри цикла.

Если же требуется получить большой фрагмент – больше половины исходной строки – то используется иной, более быстрый алгоритм. Создается полная копия исходной строки, после чего у нее обрезаются конец и начало, как описано в задаче 5. При этом временно занимается память под целую копию, но затем – при обрезании – занятый объем уменьшается. Так как требуемый объем памяти под конечный результат в данной ветке сравним с размером полной копии, то кратковременный расход памяти под полную копию представляется разумной платой за более высокую скорость.

Обратите внимание: функция substrlarge работает непосредственно с аргументом $_[0], не копируя его во временную переменную – как это обычно делается в начале Perl-функций. Копирование типа "my $s= $_[0]" привело бы к напрасному расходу памяти под лишнюю копию исходной строки (см. также задачу 3).

С использованием функции substrlarge правильное решение будет таким:

my $text= "very large string.... (1 MB)";

my $v= substrlarge($text,100000,500000);

работаем с $$v;

7. При использовании регулярных выражений, с большой строкой нельзя генерировать переменные $1,$2 и пр.

Скажем, следующий код неэффективен:

my $text= "very large?12?12 string.... (1 MB)";

$text=~s/^(.*??15??12?15??12)//s;

my $prefix= $1; #предполагается, что этот префикс невелик

Хотя от этого регулярного выражения нам требуется, очевидно, только префикс строки $1, который может быть и небольшим, Perl все равно заполнит переменные $&, $` и $". А одна из них будет большой – сравнимой с самой $text. Причем память из-под этих переменных автоматически не освободится.

Здесь единственное известное мне правильное решение – избегать применения регулярных выражений к потенциально большим строкам. В данном случае можно было написать цикл поиска пары переводов строки на основе вызовов функции index.

Можно также пользоваться «статическими» регулярными выражениями – не использующими скобок (или использующими только (?:...) ). Такие регулярные выражения не заполняют переменных $1,$2,...,$&,$`,$" и соответственно не расходуют много памяти.

8. Нужно прочитать из файла или сокета большой текст

Типичное решение выглядит примерно так:

my $text= "";

for (;есть что читать;) {

  my $buf= читаем очередные 32 KB;

  $text.= $buf;

  undef $buf;

}

работаем с $text;

undef $text;

Хотя на вид этот код вполне аккуратный и следует приведенным выше рекомендациям, на самом деле он все-таки может привести к проблеме. А именно, если общий объем читаемого текста порядка 1 Мб, то в процессе чтения в пике может израсходоваться не 1, а 2 Мб. Второй мегабайт потом обычно освобождается, но не гарантированно.

Эта тонкая проблема, по-видимому, связана с механикой переотведения памяти в Perl. Оператор «$text.= $buf» время от времени увеличивает память, занятую переменной $text. В процессе такого переотведения интерпретатору Perl, вероятно, требуется двойной объем памяти: под прежнюю строку $text и под новый, увеличенный буфер для этой переменной. В этот момент процесс и занимает лишний мегабайт. Видимо, если переотведение происходит в конце цикла, второй мегабайт может и не освободиться: в соответствии в общей идеологией Perl «запасать буфера памяти на будущее повторное использование».

Правильное решение описанной задачи – взять отведение памяти на себя. Например:

аккуратно отвести под $text 1 MB (1000000 байтов);

for ($n=0; есть что читать; $n+=32768) {

  my $buf= читаем очередные 32 KB;

  substr($text,$n,32768)= $buf; #"магия lvalue"

}

if ($n<1000000) {

  substr($text,$n)=""; #очищаем ненужный "хвост" $text

}

Если заранее неизвестно, что предстоит читать именно 1 Мб, можно изредка (именно изредка!) аккуратно выполнять самостоятельное переотведение памяти.

Для аккуратного отведения памяти можно предложить один из следующих приемов:

$text=" "; $text x= 1000000;

или

$text=" "; vec($text,1000000-1,8)= 32;

#код пробела; можно использовать любой другой символ

Оба способа отводят ровно 1 000 000 байтов памяти, ничего не тратя зря. Второй способ («магия lvalue» для функции vec) можно использовать также для переотведения памяти.

Все вышеописанное протестировано и неплохо работает в ActivePerl 5.005 на NT 4.0 и в стандартном Perl из FreeBSD 4.2. Под ActivePerl 5.6 в Windows 2000 все оказалось несколько хуже: undef не освобождает память. (По крайней мере, TaskManager не показывает сокращения памяти у процесса Perl, пока длится 10-секундный sleep, следующий за вызовом undef.) Впрочем, к моменту, когда вы будете читать эту статью, возможно, этот недостаток уже будет исправлен фирмой ActiveState.

В завершение хотелось бы сделать небольшое замечание. Если вас действительно интересует эффективность работы вашей программы – в плане экономии памяти, в плане быстродействия или в любом другом смысле – никогда не стоит полностью полагаться на документацию, общие рекомендации и советы. В том числе, приведенные в этой статье. Всегда измеряйте эффективность сами! Если реальная эффективность программы не соответствует вашим априорным оценкам, ищите «узкое место» – тот «плохой оператор», который отвечает за перерасход памяти или долгое выполнение. После чего создайте тест – минимальную программу, в которой «плохой оператор» проявляет свои скверные качества, – и ищите более качественное эквивалентное решение. Именно так были найдены все описанные выше приемы.


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru