Рубрика:
Наука и технологии
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
КАРАСЕВ О.И., к.э.н., доцент, и.о. заведующего кафедрой статистики экономического факультета МГУ имени М.В. Ломоносова, k-o-i@yandex.ru
МАТЮХИНА И.Н., доцент кафедры статистики экономического факультета МГУ имени М.В. Ломоносова
ЛЕГЧАКОВ К.Е., аспирант кафедры статистики экономического факультета МГУ имени М.В. Ломоносова, kliml@mail.ru
ПЕТРОВ И.А., выпускник геологического факультета и факультета ВМК МГУ имени М.В. Ломоносова, сотрудник ООО «Газпром информ», msupetrov@gmail.com
«Большие данные» в экономических исследованиях: источники информации, направления анализа и требуемые компетенции
Революционные изменения в информационной среде, обусловленные ростом числа «интеллектуальных» устройств, числа интернет-пользователей, скорости передачи данных в широкополосных каналах открывают новые возможности в различных сферах человеческой деятельности. Не является исключением и научная сфера экономических исследований. Последние, как известно, требуют значительных объемов необходимых для анализа данных, различающихся по своей природе и содержащихся в различных первоисточниках. Прогнозируемый экспертами ведущих ИТ-компаний информационный взрыв в ближайшие 4-5 лет существенно расширит горизонты научной деятельности. Мощный импульс в развитии получат статистическая наука и практика, традиционно занимающиеся сбором и анализом количественных данных о массовых явлениях и процессах в социально-экономической сфере
Уже сегодня в аналитической практике применяются такие методы, как библиометрический, патентный анализ, web-scraping, анализ социальных сетей. Полученным на их основе показателям, представляющим различные аспекты научной деятельности в количественном выражении, уделяется пристальное внимание при формировании научной политики введущих странах мира. Эти методы также прочно вошли в инструментарий прогнозирования научно-технологического и инновационного развития.
Анализ «Больших данных»1 в экономических исследованиях дает возможность в систематизированном виде учесть мнения большого числа заинтересованных сторон, отраженные впервоисточниках – с такой степенью полноты и детализации, которой невозможно достичь в рамках традиционных экспертных процедур. При этом такой подход имеет и ряд недостатков. Его результативность в значительной степени зависит от качества исходных данных. Крупные англоязычные базы не в полной мере отражают развитие науки итехнологий в странах, говорящих на других языках. Результаты анализа зависят от качества поисковых запросов к базе и могут варьироваться при их изменении. Каждый изуказанных методов характеризует состояние и перспективы развития науки и технологий с разных сторон; будучи примененным в отрыве от других подходов, он создает ложную уверенность в корректности результатов и способствует линейному восприятию изменений.
Правильное применение современных методов исследований требует соответствующих компетенций выпускников экономических специальностей, которые необходимо формировать в рамках образовательных программ.
В статье дается краткий обзор современных методов анализа «Больших данных» и обосновывается назревшая потребность отечественного рынка труда в специалистах, обладающих навыками работы с «Большими данными», как очередного фактора развития информационного общества.
До недавнего времени основные изменения в функциях статистической науки и практики по преимуществу были связаны с коренными сдвигами в экономической, политической иликультурной жизни страны.
Становление отечественной статистики связано с проведением ряда уникальных статистических работ, послуживших базой для последующего ее развития. Важнейшие из этих работ: генеральная опись Малороссии; генеральное межевание и топографические описания губерний (1764 год), включавшие описания отдельных районов страны с ихисторическими, географическими, административными и экономическими характеристиками, Первая Всероссийская перепись населения (1897 год) – и этот перечень может быть продолжен. Необходимость решать новые задачи экономического и социального развития России порождало настоятельную потребность в накоплении учетно-статистических данных, в их изучении и осмыслении, в совершенствовании самих методов организации и проведения исследований, что, в свою очередь, способствовало развитию научных разработок в области статистики. Период становления советской статистики (1917-1930 годы) отличался исключительной интенсивностью исследований: проводилось большое число специально организованных статистических переписей и обследований, был построен первый баланс народного хозяйства. Плюрализм мнений, концепций, идей, критическое использование достижений зарубежной статистики характеризуют этот период2.
Коренным поворотом в развитии отечественной статистики стал этап, связанный с переходом к рыночным отношениям в экономике. Статистическая система адаптируется крыночной системе хозяйствования, внедряются международные стандарты учета и статистики, видоизменятся система показателей, внедряется система национального счетоводства, приводятся в соответствие с международными статистическими стандартами многие разделы статистики (цен, финансов, населения, труда, торговли, бюджетной статистики и др.).
Современные вызовы, стоящие перед статистикой, заключаются в необходимости обеспечения получения более полной и разнообразной информации всеми потребителями, включая органы государственного управления, международные статистические организации, научных работников, предпринимателей, индивидуальных пользователей. Это требует фундаментальной проработки и совмещения показателей макроэкономического блока и разнообразных блоков микроуровня – данных о предприятиях, рынках, регионах, муниципалитетах и т.д. Проводимые в настоящее время изменения имеют целью создание такой системы информации, при которой показатели, получаемые от хозяйствующих единиц, формировали бы массивы данных, способных удовлетворить разнообразные потребности всех пользователей статистической информации.
Сложнейший процесс перехода на статистику предприятий не возможен без учета взаимосвязей различных объектов в информационных потоках и построения иерархических схем блоков информации. Решается эта задача построением системы взаимосвязанных классификаторов, номенклатур продукции и услуг с различным уровнем агрегирования. Логическим завершением должна выступить целостная система совместимых баз данных экономической и иной информации. Такой интегрированный банк данных будет основан насовременной ИТ-платформе, создание которой может в значительной степени строиться на отечественных решениях.
Возможности дальнейшего совершенствования статистики на современном этапе обусловлены бурным развитием информационно-коммуникационных технологий. Революционные изменения в информационной среде открывают новые горизонты для экономических исследований. Они существенно расширяют возможности сбора и анализа количественных данных о массовых явлениях, традиционно являвшихся предметом статистической науки. Грядущие масштабы изменений впечатляют.
Согласно прогнозу американской ИТ-компании CISCO, в 2015 году объем IP-трафика в мире составит 1,3 зеттабайт (один зеттабайт равен триллиону гигабайт), а общее число пользователей интернета достигнет 3,4 млрд человек – около 45% населения планеты. 90% существующих в мире данных создано в последние два года, однако проблема их анализа состоит в том, что 80% информации существует в неструктурированном виде. По некоторым оценкам, использование данных низкого качества порождает для бизнеса издержки вразмере порядка 600 млрд долларов в год – это своего рода издержки несовершенства информационной среды, которые покрываются ее пользователями [The Big Picture of Big Data – http://www.bodhtree.com/bigdata.php. Дата обращения: 09.06.2015 г.].
Задача обработки и анализа больших массивов данных вызывает необходимость разработки новых методов такого рода исследований. По оценкам компании Bodhtree, 94% пользователей «Больших данных» используют методы анализа больших объемов информации, которые ранее невозможно было применить [The Big Picture of Big Data – http://www.bodhtree.com/bigdata.php. Дата обращения: 09.06.2015 г.]. Уже сегодня в аналитической практике получили распространение такие подходы, как библиометрический, патентный анализ, web-scraping, анализ социальных сетей. Полученным на их основе показателям, представляющим различные аспекты научной деятельности в количественном выражении, уделяется пристальное внимание при формировании научно-технологической политики не только в масштабах отдельных организаций, но и на национальном уровне введущих странах мира. Эти методы прочно вошли в инструментарий прогнозирования научно-технологического и инновационного развития.
Прикладной экономический анализ широко оперирует таким методом, как Data mining («добыча данных» или «интеллектуальный анализ данных»). Он представляет собой совокупность подходов к обнаружению в имеющейся информации ранее неизвестных, полезных и доступных для интерпретации и принятия необходимых решений в различных сферах деятельности знаний.
Основу Data mining составляют различные методы классификации, моделирования и прогнозирования. К методам анализа больших данных часто относят также статистические методы – дескриптивный, корреляционный и регрессионный, факторный, дисперсионный, компонентный, дискриминантный анализ, анализ временных рядов. В промышленных решениях такие методы нередко непосредственно включаются в программные пакеты Data mining. Знания, добываемые с применением таких подходов, принято представлять в виде моделей – ассоциативных правил, деревьев решений, кластеров, математических функций и др.
Остановимся кратко на обзоре некоторых аналитических задач, решаемых с использованием различных типов «Больших данных». Задачи, решаемые с применением анализа данных, принято разделять на описательные (англ. – descriptive) и предсказательные (англ. – predictive). В описательных задачах дается описание имеющихся скрытых закономерностей ипредставление их в максимально возможном наглядном виде, для того чтобы в результатах мог разобраться даже не специалист. Предсказательные же задачи решаются в два этапа. На первом этапе происходит построение модели данных (на основе набора данных с известными результатами). На втором этапе производятся попытки предсказания результатов для новых наборов данных, результаты для которых неизвестны.
Типичными примерами описательных задач, решаемых с помощью Data mining, являются:
- Кластеризация – объединение объектов наблюдений или событий на основе свойств, определяющих их сущность. В составе кластера объекты имеют сходство между собой поопределенным признакам и отличия от объектов, включенных в другие кластеры. Точность кластеризации устанавливается по степени признаков сходства и отличия.
- Ассоциация – выявление связей/отношений между событиями. Целью поиска является нахождение частых взаимосвязей между объектами. Применяется при анализе рыночной корзины (market basket analysis), в том числе при выделении шаблонов покупок, осуществляемых в супермаркетах.
- Последовательные шаблоны – выявление причинно-следственных связей между событиями, соотнесенными во времени, то есть событие А влечет за собой событие В, которое должно произойти через определенный интервал времени.
- Анализ отклонений – выявление наименее характерных шаблонов.
К предсказательным задачам относятся:
- Классификация – определение принадлежности объектов наблюдений или событий по их характеристикам к установленным или уже известным классам.
- Регрессия – определение по известным характеристикам объекта, значение некоторого параметра этого объекта. Значением параметра в отличие от задачи классификации является множество действительных чисел, а не конечное множество классов.
По способам решения задачи разделяют на Supervised Learning (обучение с учителем) и Unsupervised Learning (обучение без учителя).
Задачи, решаемые с применением метода обучения с учителем, решаются в несколько этапов. В первую очередь строится модель анализируемых данных – классификатор. Затем классификатор обучается. Обучение классификатора производится с помощью проверки качества его работы и дообучения классификатора, в случае если он работает недостаточно корректно. Так продолжается до тех пор, пока не будет достигнут один из результатов:
- получен требуемый уровень качества;
- стало ясно, что выбранный алгоритм не работает корректно с данными;
- стало ясно, что данные не имеют структуры, которую можно выявить.
Задачи, решаемые обучением без учителя, – это задачи, выявляющие описательные модели. Очевидно, что если эти закономерности есть, то модель должна их представить безкакого-либо обучения. Достоинством таких задач является возможность решения задач для данных, о которых заранее не известно ничего. К ним относятся кластеризация и поиск ассоциативных правил.
Далее рассмотрим немного подробнее некоторые из задач.
Задача классификации и регрессии
При анализе данных часто возникает задача определения принадлежности некоторых объектов к известным классам, т.е. классификация объектов.
Одним из примеров подобной задачи является фильтрация спама в электронной почте. Определение письма как спама и перенаправление его в специальную, отведенную для спама папку производится на основании анализа частоты упоминания в сообщении определенных слов/словосочетаний (например, обезличенное обращение, словосочетание «Выгодная акция» и т.п.). Другим примером подобной задачи является принятие решения о выдаче кредита клиенту банка. Когда человек обращается за кредитом, работник банка должен определить его кредитоспособность. Решение принимается на основе предоставленных данных, которыми являются сведения о заработной плате, ежемесячных расходах, составе семьи, наличии имущества. При решении этой задачи результатом анализа будет являться отнесение человека к одному из двух возможных классов –кредитоспособен илинекредитоспособен.
Задача классификации – это задача определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр называют зависимой переменной, а параметры, участвующие в его определении, – независимыми переменными. В приведенных примерах независимыми переменными являлись:
- заработная плата;
- возраст;
- состав семьи;
- частота определенных слов.
Зависимыми переменными в этих же примерах являлись:
- кредитоспособность клиента («да» или «нет»);
- тип сообщения («Спам» или «Не спам»).
Во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии.
Характерным примером задачи регрессии является задача определения суммы кредита, который может быть одобрен банком клиенту.
Задача классификации и регрессии решается в два этапа. На первом шаге определяется модель для дальнейшего анализа данных. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В нашем случае для настройки модели могут использоваться, например, данные о выплатах по ранее выданным кредитам клиентами со схожими данными, а также данные о перемещении ранее отправленных писем в ящик «Спам» пользователями ящиков.
На основании данной выборки строится модель определения значения зависимой переменной. Для получения максимально точной функции к данной выборке предъявляются следующие основные требования:
- большое количество объектов (чем больше объектов, тем точнее модель);
- выборка должна включать в себя объекты, представляющие все существующие классы для задачи классификации или всю область значений для задачи регрессии;
- для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать такое количество объектов, которое будет достаточным.
На втором этапе построенную модель применяют к анализируемым объектам (новому письму или новому клиенту, который пришел за кредитом).
Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, – это неудовлетворительное качество исходных данных, в которых встречаются какошибочные данные, так и пропущенные значения, разная значимость атрибутов.
Задача поиска ассоциативных правил
Поиск ассоциативных правил является одним из самых популярных методов. Суть данного метода заключается в том, что определяются часто встречающиеся наборы, в большом множестве таких наборов. В качестве примера такой задачи можно привести анализ рыночных корзин, изначально она применялась для прогноза поведения покупателей всупермаркетах. Интересными результатами для данной задачи является определение закономерностей в покупательской корзине: какие товары люди покупают вместе, какие из них покупаются чаще, какие категории товаров приобретаются теми или иными покупателями. Данная информация может помочь продавцу в планировании рекламных акций ипрогнозировании спроса на товары тех или иных категорий в зависимости от времени года, надвигающихся праздников.
Например, из набора покупок, совершаемых в магазине, можно выделить следующие наборы товаров, которые покупаются вместе:
- хлеб и молоко;
- коньяк и шоколад.
Отсюда можно сделать вывод, что если клиент покупает молоко, то скорее всего он приобретет и хлеб. При наличии такой информации продавец, в свою очередь, может разместить данные товары рядом, объявить акцию на какой-то из товаров, таким образом повысив спрос на данный набор товаров.
Задача кластеризации
Задача кластеризации – задача разбиения заданной выборки объектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.
Задача кластеризации относится к широкому классу задач обучения без учителя.
Входными данными для этой задачи являются объекты, описанные набором характеристик, называемых признаками. Далее на основе полученных данных происходит построение матрицы расстояний между объектами. Исходные данные об объектах располагаются на плоскости, и вычисляются расстояния между ними. На основе анализа этих данных одним из множества доступных способов происходит объединение объектов в кластеры.
В качестве примера данной задачи можно привести анализ бизнес-процессов организации. В качестве начальных данных мы получаем перечень процессов (таких как выдача зарплаты, расчет с поставщиками, отгрузка товара и т.п.) и связь этих процессов с документами организации. Какие документы использует каждый из процессов, какие из них создает и редактирует (например, зарплатная ведомость, ведомость отгрузки товара). Для построения матрицы расстояний строится матрица признаков, в которой по вертикали – процессы, по горизонтали – используемые документы, а в узлах пересечения проставлен признак – используется или не используется.
Очевидно, что в данном примере более связанные между собой процессы используют одни и те же документы. Процессы же, принадлежащие к разным классам, используют разные документы, таким образом не пересекаясь в своей работе. На основе анализа и расчета расстояний из таблицы признаков получается матрица расстояний.
Матрица расстояний может быть вычислена по матрице признаковых описаний объектов бесконечным числом способов, в зависимости от того, как ввести функцию расстояния (метрику) между признаковыми описаниями.
Обратная задача – восстановление признаковых описаний по матрице попарных расстояний между объектами – в общем случае не имеет решения, а приближенное решение неединственно и может иметь существенную погрешность. Эта задача решается методами многомерного шкалирования.
Таким образом, постановка задачи кластеризации по матрице расстояний является более общей. С другой стороны, при наличии признаковых описаний часто удается строить более эффективные методы кластеризации.
Результатами кластеризации могут являться:
- понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов упрощает дальнейшую обработку и анализ данных;
- сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному или несколько объектов от каждого кластера;
- обнаружение новизны. Выделяются нетипичные объекты, которые не попадают ни в один из кластеров.
Контент-анализ
Количественный анализ содержания текстов (особенно анализ содержания текста, материалов, присутствующих в СМИ, заявлениях политиков, исследованиях ученых). Применяется при наличии большого объема не систематизированного текстового материала. Цель анализа заключается в интерпретации выявленных числовых закономерностей, позволяющей значительно упростить понимание и использование исходного материала. В качестве единицы анализа обычно используются слово, словосочетание или фраза.
Единица контент-анализа должна отвечать определенным требованиям:
- достаточно большая, чтобы выражать значение;
- достаточно малая, чтобы не выражать много значений;
- подлежать легкой идентификации;
- число единиц для контент-анализа должно быть достаточным для презентативной выборки.
Необходимо, чтобы интересующие исследователя элементы содержания встречались с достаточной частотой (принцип статистической значимости).
Чаще всего в качестве материалов используются сообщения печати, радио, телевидения, данные свободных интервью, открытые вопросы анкет.
Этапы проведения контент-анализа
1. Выявление источников и сообщений на основе определенных заранее критериев, в том числе:
- тип источника (пресса, телевидение, радио, рекламные материалы);
- тип сообщений (статьи, заметки);
- стороны, участвующие в процессе обсуждений (отправитель, получатель);
- сопоставимый размер текста;
- частота появления информации;
- способ, место и время распространения.
2. Формирование выборки текста для анализа.
3. Выявление единиц анализа. Единицы анализа – слова или темы – важный момент анализа.
4. Выделение единиц счета. В основном производится подсчет частоты упоминания выделенной на предыдущем этапе смысловой единицы.
5. Процедура подсчета.
6. Интерпретация полученных данных.
Web-scraping
Метод типизированного сбора и извлечения данных из сайтов сети интернет. Метод схож с методом индексирования, результаты которого известны как результаты поиска информационных поисковых систем (например, Yandex или Google). Однако цель метода web-scraping – это не поиск текста по всему интернету, а поиск/сбор/преобразование конкретных данных с определенных сайтов. Результатами работы программ, реализующих подобную методику, могут быть сводные данные об изменении котировок валют, изменении цен на товары, статистические данные об изменениях на популярных порталах. То есть целевое назначение методологии – автоматизация сбора нужной информации изсети интернет.
Реализации данного метода могут быть различны – от примитивной подпрограммы, следящей за котировками валют, до многоуровневых кластерных систем, применяемых в банках для сбора данных о ценах, новостях и прочем.
Примером реализации могут служить закрытые системы анализа рынка, применяемые банками и агентствами, торгующими на рынках. Системы осуществляют мониторинг потребительских цен, данных из аналитических статей, новостей, котировок валют, ценных бумаг, проводят кросс-корреляции данных и предоставляют трейдерам аналитические сводки, помогающие им в принятии решений.
Преимуществами web-scraping являются:
- способы применения могут быть весьма простыми – например, достаточно сформулировать правила извлечения данных с веб-страниц и затем проанализировать их с помощью библиометрического анализа;
- существует ряд специализированных инструментов для использования web-scraping.
Недостатки web-scraping:
- на некоторых сайтах данные могут быть представлены некорректно. Всегда есть риск столкнуться как с недостатком, так и с избытком информации;
- содержание веб-страниц может меняться часто и непредсказуемо, и обычно представленные на них результаты характеризуют лишь ситуацию по состоянию на текущий момент;
- применение web-scraping может нарушать авторские права владельцев сайтов.
Web-scraping помогает корректно выполнить глубинный анализ значительных объемов текстовой информации, поскольку обеспечивает приток дополнительных данных с веб-ресурсов. Также есть возможность разработать поисковые метасистемы, которые обеспечивают последовательное сравнение результатов, полученных из разных источников (например, расценки на обслуживание кредитных карт, страховые премии, цены на недвижимость и т.д.). Данный метод позволяет аккумулировать данные для технологического анализа, оценки рыночной конъюнктуры, уровня конкуренции и т.п. Суть его заключается в постоянном сканировании новостей и иной информации о технологиях или рынках. Собранные данные могут быть компилированы и проанализированы с помощью различных методик.
Патентный анализ
При выявлении глобальных технологических трендов существенную роль играет патентный анализ, так как изобретения, патентуемые за рубежом, свидетельствуют о научном иинженерном интересе к технологиям в рассматриваемой области. Патентный анализ основан на сборе информации о патентах по ключевым словам (название и аннотация), зарегистрированных в соответствующих базах данных (например, Ведомство по патентам и торговым маркам США, Европейское патентное ведомство, Патентное ведомство Японии и Всемирная организация интеллектуальной собственности).
Патентная статистика является хорошо известным инструментом исследования корпоративного планирования инноваций и анализа конкуренции. Существует два аспекта патентных показателей: с одной стороны, они документируют успех разработок, а с другой, свидетельствуют об экономическом интересе к определенным будущим рынкам. Так называемые опережающие показатели, такие как статистические данные о научных публикациях или тенденции патентов, которые свидетельствуют о конъюнктуре рынка с задержкой внесколько лет, могут быть полезными для решения различных задач, связанных с прогнозированием.
Патентная статистика принята в качестве показателя кодифицированных знаний, полученных в результате фундаментальных и прикладных исследований и развития промышленности. Поскольку патентные заявки являются юридическими документами, действительными лишь в одной стране, возникает немало зарубежных «дубликатов» приоритетных отечественных патентных заявок. Выбор патентных данных лишь одного патентного бюро для исследований в целях предвидения не всегда дает достаточно репрезентативную выборку, характеризующую изобретательскую деятельность во всем мире.
Для того чтобы продемонстрировать полезность патентной статистики для предвидения ситуации в области торговли, обычно используются ряды средних годовых показателей патентной статистики за несколько лет. Анализ, проведенный рядом исследователей, показывает, что патентная статистика в силу кумулятивного характера инноваций опережает международную торговлю примерно на три года.
Поскольку дубликаты патентов могут быть отслежены и сопоставлены друг с другом, можно выявить так называемые патентные семьи, группирующиеся вокруг одного изобретения и объединяющие права иностранцев на собственность во всех странах мира. Согласно критериям отбора в патентных исследованиях учитываются только те изобретения, наиностранный дубликат которых были приняты заявки, по крайней мере в США, Японии и в Европейском патентном бюро.
Согласно этому критерию отбора применяется «триадная» модель, требующая защиты индустриальной собственности во всех элементах триады – в США, Японии и Европе. Поскольку условиями предусмотрено, чтобы в Соединенных Штатах не только подавалась заявка на патент, но и чтобы он был выдан, классификация может основываться наамериканском эквиваленте и соответствовать группе изделий потенциальной области применения. Таким образом, патенты соотносятся с изделиями с помощью соответствующего индекса «патент – реализация».
Аналитическое использование патентной статистики вполне пригодно для более широкого применения в краткосрочной перспективе. Из патентного анализа можно вывести некоторые тенденции развития международных рынков в течение ближайших лет. Несмотря на растущие потоки внутрифирменной информации, национальное производство технологий до сих пор представляется важным компонентом рыночного успеха, по крайней мере для ориентированных на рынок технологий.
Библиометрия
Библиометрия – крупное, интенсивно развивающееся научное направление, основанное на методах количественного анализа библиографических характеристик документов, дающих основу для их качественной оценки. Библиометрические исследования тенденций развития науки и технологий проводят многие организации, информационные центры вовсем мире, о чем свидетельствует значительное количество отечественных и зарубежных публикаций. Лица, ответственные за научную политику в Европе и США, также уделяют большое внимание библиометрическим показателям, которые, главным образом, представляют различные аспекты научной деятельности в количественном выражении. В этой связи научная публикация может выступать в качестве объекта различных наукометрических исследований для проведения мониторинга состояния научно-технической сферы страны иоценки роли научного потенциала России на мировом уровне.
Методика, в основе которой лежит количественный и статистический анализ публикаций. Например, речь может идти о простом построении графиков публикационной активности вданной области (иногда с разбивкой по странам и темам), с отслеживанием динамики на протяжении того или иного периода.
Целевая сфера библиометрических исследований – журнальные статьи, книги, отчеты/доклады и патентные базы данных. Содержательный и дискурсивный анализ этих материалов позволяет выявить основные проблемы и возможности, освещаемые в литературе в данной предметной области. Количественные данные о числе публикаций позволяют выполнить статистический анализ и экстраполяцию тенденций для прогнозирования будущего.
Качество литературы оценивается через анализ цитирования – например, для выявления наиболее значимых работ в той или иной области. Для этого используются такие инструменты, как Индекс научного цитирования (Science Citation Index); анализ текста (text mining), в ходе которого разрабатывается алгоритм для определения частоты использования тех или иных фраз, включающих определенный набор слов, а также близости фраз друг к другу (физической близости фраз, содержащих заданный набор технических терминов) в любой крупной текстовой базе данных. К этой работе также привлекаются опытные квалифицированные эксперты-аналитики [Kostoff et al., 2001; Melkers, 1993; Narin and Olivastro, 1994].
Он может включать в себя как анализ распределения публикаций по отдельным областям и кластерам по годам, так и анализ индексов цитируемости авторов. Для сбора библиометрической статистики во всем мире используются система Web of Science на платформе ISI Web of Knowledge компании Thomson Reuters и европейская база данных Scopus издательской компании Elsevier.
Основными направлениями библиометрических исследований в библиотеках являются: информационное обеспечение и сопровождение научно-исследовательских работ; моделирование и анализ количественных параметров и закономерностей документальных информационных потоков; определение информационной значимости научных журналов; оптимизация комплектования и формирование ядра библиотечного фонда; формирование проблемно-ориентированных баз данных; моделирование процессов обращения и спроса на электронные информационные ресурсы и др.
С помощью библиометрики можно выявить области, в которых публикуется наибольшее число работ, что может свидетельствовать о перспективах развития конкретного кластера. Для определения продуктивности ученого в последнее время наиболее часто используется h-index (индекс Хирша)3. Индекс вычисляется на основе распределения цитирований работ данного исследователя следующим образом: ученый с индексом z опубликовал h статей, на каждую из которых сослались как минимум n раз. Метод библиометрики позволяет выявить возможные перспективные области и сформировать пул квалифицированных экспертов.
Новой и быстро развивающейся сферой применения библиометрических методов становится прогнозирование научно-технологического развития. В частности, подобные исследования ведутся в рамках национальных программ Форсайта.
В современных условиях потребность в библиометрической информации возникает и в вузах. Наукометрические (библиометрические) показатели представляют интерес как дляпреподавателей, научных сотрудников, руководителей подразделений и вуза в целом, так и для сотрудников вузовских библиотек.
Таким образом, данные, полученные с помощью библиометрического метода, могут использоваться не только научным сообществом, но и органами управления и бизнесом. Следовательно, библиотеки должны адекватно отвечать растущему рынку спроса на такого рода информацию и активно проводить библиометрические (наукометрические, информетрические) исследования.
Преимущества библиометрического анализа:
- позволяет получить общую характеристику современного состояния изучаемой отрасли и спрогнозировать ее возможное развитие;
- обеспечивает структуру для анализа больших объемов структурированных, полуструктурированных и неструктурированных данных;
- позволяет выполнять сканирование горизонтов;
- отражает мнения значительного количества ученых, политиков, бизнес-лидеров и иных заинтересованных сторон.
Недостатки библиометрического метода:
- результативность библиометрического анализа в значительной степени зависит от качества исходных данных, которое иногда бывает крайне низким. Основной проблемой является отсутствие надежных баз данных, включающих все важные источники информации. Например, крупные базы данных, такие как Scopus, EBSCO или Web of Knowledge, в основном включают статьи на английском языке. Однако анализ публикаций на иностранном языке не всегда отражает реальную ситуацию в различных странах ирегионах;
- результаты библиометрического анализа могут показаться точными и актуальными, однако чрезмерное доверие к этим данным может привести к ошибкам в стратегическом планировании и в процессе разработки политики;
- для обеспечения необходимого качества данный метод следует использовать совместно с другими методами Форсайта.
Библиометрический анализ может быть дополнен обзором и анализом литературы, сканированием горизонтов и иными методами.
Сканирование горизонтов (Horizon scanning)
Сканирование горизонтов – это систематический анализ потенциальных угроз, возможностей и вероятных будущих событий, которые в настоящее время находятся на периферии нашего мышления и планирования. Оно может выявить новые, неожиданные аспекты, а также устойчивые проблемы или тенденции в научно-технологических областях.
Преимуществами сканирования горизонтов:
- эффективная методика позиционирования и прогнозирования помогает «взглянуть на ситуацию со стороны»;
- позволяет проверять прогнозы на реалистичность;
- учитывает различные точки зрения и перспективы;
- стимулирует междисциплинарное сотрудничество, способствует более глубокому пониманию механизма возникновения перемен, оценке их потенциального влияния набудущее, а также способности адаптироваться к изменяющейся ситуации.
Недостатки сканирования горизонтов:
- в некоторых случаях, являясь единственной используемой методикой, создает ложную уверенность в корректности результатов и способствует линейному восприятию перемен;
- может стать самоцелью – что ведет к отказу от оценки влияния развития технологий на будущее развитие;
- использование только этой методики (без сочетания с другими инструментами) может привести к значительному росту затрат.
Сканирование горизонтов лучше всего выполнять на первых стадиях исследования и затем последовательно применять на протяжении всего проекта. Продуктивное сканирование горизонтов предполагает выявление слабых сигналов, свидетельствующих о потенциальных переменах, оценку потенциального влияния, которое перемены могут оказать в будущем (какие новые перспективы, угрозы, возможности и т.п. могут возникнуть в результате). Эффективным методом, который можно использовать для оценки результатов сканирования горизонтов, является разработка сценариев.
В последнее время все более широкое развитие получают новые методы Форсайта, такие как слабые сигналы (weak signals), случайные факторы (wild cards). Случайные факторы, или джокеры (wild cards), имеют низкую вероятность, но в случае наступления могут оказать сильное воздействие на ход развития того или иного процесса. Это события, которые впоследнее время получили название «Черные лебеди» – одноименно с теорией Нассима Николаса Талеба4.
Слабые сигналы (weak signals)
Концепция слабых сигналов широко используется в бизнес-литературе, но не имеет точного определения. Обычно слабые сигналы воспринимаются как информация опотенциальных изменениях системы в неизвестном направлении.
Слабые сигналы позволяют предсказать ряд событий в будущем. Например, в настоящее время нарастает дефицит питьевой воды – уже сейчас можно составить список стран, вкоторых эта проблема будет обостряться. В перспективе большая часть населения Земли будет испытывать нехватку питьевой воды, что может привести к миграции больших потоков населения уже в ближайшие 20-30 лет.
В настоящее время приемы обнаружения слабых сигналов и критических факторов нередко используются в методологических моделях Форсайт-исследований. Однако единой концепции изучения этих явлений пока не существует, но можно выделить и определенным образом сгруппировать подходы, используемые на практике.
Так, существуют следующие типы исследования слабых сигналов:
1. По способу выявления:
- изучение окружающей среды;
- симуляция.
2. По периодичности:
- разовые;
- постоянные;
- периодические.
3. По составу и количеству участников:
- с привлечением внешних экспертов, широкого круга лиц;
- с привлечением внутренних экспертов или специалистов консалтинговых фирм;
- силами коллектива исследователей.
4. По широте охвата:
- исследование заданного круга тенденций в конкретной области;
- исследование одной заданной области;
- исследование нескольких выделенных областей;
- комплексный подход.
5. По уровню проведения:
Методы выявления и обнаружения джокеров и слабых сигналов слабо развиты – этот анализ почти не формализован и с большим трудом поддается воспроизводству. Однако такие события надо изучать.
Многие кризисы были вызваны неспособностью своевременно отреагировать на тенденции, зародившиеся в прошлом, но не привлекшие к себе должного внимания. Слабые сигналы, предупреждавшие о возможном событии-джокере, могли быть просто проигнорированы.
Поиск слабых сигналов может осуществляться в рамках процесса профилирования (см. описание данного метода выше). Его частью считается выявление «необязательно важных факторов», которые на первый взгляд не играют особой роли, но способны спровоцировать серьезные перемены в будущем – например, изменение общественного мнения вотношении тех или иных явлений, зарождающееся беспокойство по поводу тех или иных проблем.
Как разработать общую таксономию для анализа слабых сигналов? Они в значительной степени зависят от интерпретаций наблюдателя, которые, в свою очередь, определяются техническими, индивидуальными и организационными перспективами. Кроме того, следует иметь в виду, что интерпретации ограничены рамками конкретных ситуаций и, следовательно, требуют постоянного мониторинга и оценки.
Джокеры (wild cards)
Анализ слабых сигналов часто ведет к выявлению джокеров. Под джокерами понимаются удивительные и неожиданные события с малой вероятностью возникновения, но с очень мощным эффектом (например, террористическая атака на Всемирный торговый центр в США 11 сентября 2001 года, внезапные сдвиги в расстановке сил на международной арене, крупные природные или техногенные катастрофы). Такой эффект может быть самым различным – от внезапной смены господствующих идеологий до радикальных перемен вовзглядах общества на научно-технические потребности и приоритеты.
Форсайт занимается разработкой мер, направленных на предупреждение таких событий или защиту от них. В процессе исследования разрабатывается набор образов будущего, каждый из которых представляет собой следствие того или иного варианта развития.
Обычно к сценариям предъявляется требование правдоподобности – образ будущего должен логически вытекать из тенденций современного мира. Однако возможен и другой подход. Сценарии, основанные на событиях и тенденциях, не выводимых методом экстраполяции (и в этом смысле не отвечающих условиям правдоподобности), называются «сценариями джокеров» (wild card scenarios). Они рассматриваются как варианты, возмущающие реальность, меняющие базовую логику развития.
Предпринимались попытки понять, каким образом джокеры возникают в результате слабых сигналов или эволюционных перемен. Обычно такие события выявляются с помощью мозгового штурма, научной фантастики и прогнозов гениев. Нередко игры, в том числе ролевые, могут помочь участникам представить необычные тенденции, нетрадиционное поведение и реакцию на него.
Джокеры рассматриваются в контексте теорий сложности и катастроф, а также с точки зрения внезапных перемен в системах, включая изменение взаимосвязей между элементами системы, например, изменение или «разворот» тенденции, нарушение сложившихся структур и связей и т.п.; изменение самой системы, например, появление новых или удаление существующих действующих лиц; и/или создание новых систем.
Некоторые события могут иметь не менее значительный эффект, но при этом взаимодействуют с уже имеющимися хаотичными системами, являющимися в высокой степени нестабильными и непредсказуемыми. Однако джокеры качественно отличаются от «рядовых» источников нестабильности, а их эффект, как правило, оказывается иным – более того, они могут даже способствовать снижению нестабильности за счет ослабления «стандартных» ее источников.
События-джокеры можно разделить на три категории:
- природные сюрпризы;
- непреднамеренные сюрпризы в результате действий людей;
- преднамеренные сюрпризы.
Сравнение разных типов джокеров приведено в нижеследующей таблице.
Таблица 1. Типы и основные характеристики джокеров
|
Типы джокеров |
Основные характеристики |
Природные сюрпризы |
Незапланированные/ непреднамеренные сюрпризы |
Запланированные/ преднамеренные сюрпризы |
Сценарии |
Предотвратить невозможно, поэтому следует сосредоточиться на управлении рисками илиподготовке к таким сюрпризам |
Можно предотвратить, если сосредоточиться на оценке иуправлении рисками и сюрпризами |
Предотвратить невозможно, но можно подготовиться и принять необходимые меры |
Воображение |
Описательное Сложное |
Творческое, описательное Сложное |
Творческое Стратегическое |
Интерпретация |
Для понимания эволюции систем необходимы технические перспективы |
Для выявления системных сбоев или интуитивного прозрения необходимы технические, индивидуальные илиорганизационные перспективы |
Для понимания системных революций необходимы индивидуальные иорганизационные перспективы |
Ситуации |
Экзогенные движущие силы, возможностей дляконтроля мало или нет вовсе |
Эндогенные движущие силы, возможности для контроля небольшие или средние |
Эндогенные движущие силы, возможности для контроля средние или значительные |
Слабые сигналы |
Есть, но обычно не выявляются |
Много, но, как правило, не выявляются или недооцениваются |
Мало, но обычно спрятаны илинедооцениваются |
Наиболее типичны джокеры, относящиеся к группе природных сюрпризов –цунами, землетрясения, наводнения. К ним относятся также изменения, обусловленные биологической эволюцией, и новые болезни (например, грипп A (H1N1). В большинстве случаев такие джокеры не связаны с действиями людей. Теоретически их наступление можно предсказать, если иметь адекватную информацию об их движущих силах и системной динамике, инициирующей или определяющей их возникновение и эволюцию.
Важно привлечь внимание к взаимозависимости различных событий, наличию причинно-следственных связей между ними.
Непреднамеренные сюрпризы, или неожиданные серьезные последствия человеческих действий, можно считать второй группой джокеров (например, внезапные социально-экономические или политические кризисы, промышленные катастрофы). Некоторые джокеры такого рода могут быть результатом сбоев сложнейших систем, например, глобальные финансовые кризисы последних десятилетий.
Важным аспектом анализа системных джокеров данного типа является выявление их происхождения. Так, анализ различных фрагментов общей картины экономики позволяет взглянуть на кризис как на совокупный результат разных тенденций, например, растущего дерегулирования глобальной экономики, масштабной выдачи рискованных займов иипотечных ссуд людям с неадекватной кредитной историей, появления широкого спектра высокорисковых финансовых инструментов и инвестиционных портфелей, на чтоправительства и финансовый сектор в целом смотрели сквозь пальцы на протяжении многих лет.
Есть и другие джокеры, которые относятся к данной категории, но при этом объясняются не системными сбоями, а скорее таинственным, но хорошо известным феноменом подназванием «случай» – или человеческой иррациональностью и неосторожностью.
Наконец, интуиция – способность совершать научные открытия случайно – еще один важный источник джокеров, которые можно включить в категорию непредвиденных последствий человеческих действий. Классические примеры включают изобретение пенициллина (Флемингом), ЛСД (Хофманном), динамита (Нобелем), застежки-липучки (деМестралем), суперклея (Кувером) и многие другие.
Третий тип джокеров – преднамеренные сюрпризы; эти события хорошо известны одному или нескольким людям, которые их осуществляют, но практически неизвестны тем, накого они могут очень существенно повлиять, как прямо, так и косвенно. Этот тип событий можно было бы назвать псевдоджокерами. Однако, учитывая отсутствие осознания потенциальных последствий действий и их масштабов, для характеристики преднамеренных сюрпризов, имевших значительный эффект, использовать термин «джокеры» вполне корректно.
Можно также сгруппировать джокеры в соответствии с тем, являются ли они:
- новыми/революционными событиями – например, создание в Европе цыганского государства; получение и расшифровка послания от внеземной цивилизации и т.п.;
- современным эквивалентом некоего прошлого джокера – например, землетрясение, цунами или распад США на независимые государства по аналогии с СССР;
- гипертрофированным развитием современных тенденций в будущем – например, резкое потепление климата приведет к полному запрету использования ископаемого топлива;
- противотенденцией, или прекращением тенденции – например, резкое снижение уровня пользования мобильными телефонами из-за опасений за здоровье; запрет установки видеокамер в общественных местах по соображениям охраны права на частную жизнь.
Исследование событий-джокеров осуществляется в несколько этапов. Сначала джокер последовательно анализируется по ряду критериев, в результате чего формируется его общая характеристика. В общем случае она включает в себя название джокера; его описание; ключевые слова; формируемый под его воздействием образ будущего; вероятный период времени возникновения; сценарные факторы, влияющие на появление джокера; классификацию джокера; исторические параллели; области его влияния; а также оценку уровня важности.
На следующем этапе анализируются потенциальные возможности появления джокера. Определяются индикаторы, по которым можно судить о вероятном наступлении данного события в будущем; на основе таких показателей далее можно строить систему «раннего предупреждения» о возникновении джокеров. Исследуется потенциальный жизненный цикл джокера с выделением латентной, активной и последующей стадий.
Латентная стадия – этап, на котором джокер не имеет явных проявлений, и определить его возникновение можно с помощью опережающих индикаторов. Возможности выявлять джокеры на этом этапе ограничены действием барьеров, как целенаправленных, так и случайных:
- информационные и коммуникационные фильтры – интересы или уклон СМИ, языковые барьеры и др.;
- культурные и религиозные фильтры, связанные с системой ценностей, традициями, религиозными убеждениями;
- институциональные фильтры, связанные с правилами, законами и нормами, затрудняющими распространение соответствующей информации;
- экономические фильтры, связанные с бизнесом или рыночными интересами;
- эмоциональные фильтры, связанные с чувствами, эмоциями, неуверенностью в себе (на индивидуальном и групповом уровне);
- научные фильтры, вызванные затрудненным доступом к соответствующим знаниям или технологиям;
- политические фильтры, связанные с партийными или идеологическими интересами;
- социальные фильтры – барьеры, обусловленные классовыми, статусными различиями, разным уровнем образования.
При переходе в активную стадию события-джокеры проявляют себя явным образом в определенных географических и секторальных масштабах.
На последующей стадии происходит осознание и оценка последствий джокера, среди которых могут быть коллапс некой системы, появление новой системы (например, новых технологий или парадигм); трансформация системы (например, новые сферы применения, изменения структуры и баланса заинтересованных сторон).
После анализа жизненного цикла события-джокера выявляются и определенным образом классифицируются его потенциальные движущие силы: технологические, экономические, экологические, политические, социальные и этические.
Далее оценивается потенциальный эффект джокера. Его последствия делятся на две группы – риски и возможности, со следующей хронологической градацией:
- немедленные (в течение 1 года после возникновения джокера);
- краткосрочные (1–5 лет после возникновения джокера);
- среднесрочные (5–10 лет после возникновения джокера);
- долгосрочные (более 10 лет после возникновения джокера).
Важность джокера и масштаб его последствий можно оценить с помощью определенных критериев. Среди них может быть связь рассматриваемого события с глобальными вызовами – социально-политическими (старение населения и сложная демографическая ситуация, межкультурное сосуществование и конфликты, преступность и терроризм, болезни и здравоохранение, развитие образования и др.), технико-экономическими (экономическая динамика, глобализация и локализация, инновационное развитие и др.), экологическими (устойчивое развитие и изменение климата, безопасность водных ресурсов и др.). Важность джокеров может оцениваться их влиянием на реализацию приоритетов государства в сфере науки и технологий.
В российской практике в качестве таких приоритетов выступают, например, приоритетные направления развития науки, технологий и техники в Российской Федерации икритические технологии, актуальный перечень которых увержден Указом Президента РФ от 7 июля 2011 года №899. Желательно также проследить связь джокера с возможными стратегиями развития сферы науки, технологий, инноваций – например, оценить его влияние на возможность создания научных инфраструктур мирового класса, укрепление научных институтов и университетов, стимулирование обмена и передачи знаний, повышение эффективности и результативности научных исследований в госсекторе, развитие международного сотрудничества и др.
Поскольку сигналы, свидетельствующие о наличии джокеров, постоянно возникают, исчезают и изменяются под воздействием разных сил, для их отслеживания требуются системный анализ и мониторинг. Такие проекты уже реализуются на практике. Например, в рамках программы социально-экономического и инновационного развития ЕС осуществляется подготовка информационного бюллетеня, в котором отбираются релевантные wild cards5. База данных о джокерах собирается в рамках проекта iKnow и доступна насайте http://community.iknowfutures.eu.
Оценив последствия наступления того или иного события, необходимо определить действия ключевых заинтересованных сторон, которые могут и должны быть осуществлены – либо для преодоления негативных эффектов, либо для того, чтобы воспользоваться новыми возможностями. Предметом анализа должны быть действия разных типов организаций – органов управления регионального, национального и международного уровня, бизнес-структур, учреждений сферы науки, некоммерческих организаций, СМИ, а также общественности в целом.
Преимущества анализа джокеров и слабых сигналов:
- предполагает глубокое изучение и сканирование, расширяющее восприятие предмета участниками исследования;
- позволяет получить новую, неизвестную ранее информацию;
- оценивает максимально широкий спектр потенциально возможных событий и тенденций.
Недостатки анализа джокеров и слабых сигналов:
- субъективность методики;
- отсутсвие механизма валидации/верификации.
Анализ «Больших данных» в экономических исследованиях дает возможность в систематизированном виде учесть мнения большого числа заинтересованных сторон, отраженные впервоисточниках – с такой степенью полноты и детализации, которой невозможно достичь в рамках традиционных экспертных процедур. При этом такой подход имеет и ряд недостатков. Его результативность в значительной степени зависит от качества исходных данных. Крупные англоязычные базы не в полной мере отражают развитие науки итехнологий в странах, говорящих на других языках. Результаты анализа зависят от качества поисковых запросов к базе и могут варьироваться при их изменении. Каждый изуказанных методов характеризует состояние и перспективы развития науки и технологий с разных сторон; будучи примененным в отрыве от других подходов он создает ложную уверенность в корректности результатов и способствует линейному восприятию изменений.
Правильное применение современных методов анализа «Больших данных» требует соответствующих квалификаций специалистов, которые необходимо формировать в рамках образовательных программ. А первой наиболее важной задачей, которую нужно решить субъектам как государственного, так и частного секторов экономики, является доукомплектация организаций профессиональными кадрами: как ИТ-специалистами, так и экономистами, владеющими навыками анализа «Больших данных».
По данным Head Hunter, на начало 2014 года доля вакансий сферы «Информационные технологии, интернет, телеком» в общем количестве активных вакансий от работодателей Москвы составила 10,3%, что является вторым объемом по рангу после объема вакансий сферы «Продажи». Конкуренция же среди московских специалистов сферы «Информационные технологии, интернет, телеком» в начале 2014 года была равна 1,7 человека на вакансию6. Учитывая то, что команда аналитиков Head Hunter стабильной ситуацией на рынке труда считает такую, в которой на одну вакансию приходится три кандидата, можно сделать вывод, что спрос и предложение сбалансированы и двум сторонам остается лишь договориться о стоимости труда. Но не все так однозначно!
В реалиях российской действительности наблюдается дефицит профессионалов ИТ-специальностей, которые способны обслуживать крупные информационно-управляющие системы ERP-класса, тем более готовых разработать, внедрить ИТ-систему, плюс проводить в ней минимальный первичный анализ массовых экономических процессов. Не хватает программистов со специальными знаниями прикладных экономических разделов: бухгалтерского учета, налогообложения, менеджмента, бюджетирования, бизнес-анализа.Чтокасается аналитиков в области «Больших данных», то остается только надеяться на случайность российского рынка труда.
Эмпирически спрос на конкретно указанных специалистов существенно превышает их наличие на рынке. Данный факт отмечают не только сами работодатели и аналитические агентства7, но и Министерство связи РФ8. А если все же отечественный работодатель находит подходящего кандидата, то не может предложить ему тот уровень зарплаты, который он способен получить в зарубежных компаниях, таких как SAP, Microsoft, IBM, Oracle, Gartner, IDC, Panorama Consulting Solutions и др. Приходится искать выпускников учебных заведений, которые хоть как-то удовлетворяют требованиям вакансий. Но здесь возникает еще один казус – современные выпускники, завершившие свое основное обучение поспециальностям программирование, системное администрирование, системная архитектора и т.д., плюс получившие профессиональное образование экономической направленности в магистратурах либо получившие официальную сертификацию ведущих вендоров информационных систем, давно уже осознали свою исключительность на российском рынке итребуют сразу после студенческой скамьи шестизначные месячные оклады (это еще до валютного кризиса конца 2014 года).
Стоит отметить, что Министерство связи и массовых коммуникаций РФ совместно с Министерством образования и науки РФ в 2014 году увеличило количество бюджетных мест ввузах по ИТ-специальностям9 (на 2015-2016 годы). Кроме того, Минсвязи поддерживает инициативу создания условий иностранным ИТ-специалистам для работы в России. Стратегия развития отрасли информационных технологий в РФ на 2014–2020 годы и на перспективу до 2025 года, разработанная Минсвязи, направлена на удвоение ИТ-отрасли вРоссии, «также вдвое должно увеличиться число высококвалифицированных работников ИТ-отрасли, а профессия программиста – занять место в списке четырех самых популярных профессий в России10.
Учебным заведениям экономических направлений остается лишь подхватить тот темп, с которым ведется расширение сегмента ИТ-специалистов внутреннего рынка труда иразрабатывать программы подготовки квалифицированных кадров в области анализа «Больших данных».
- Нассим Николас Талеб. Чёрный лебедь. Под знаком непредсказуемости.
- Hirsch, Jorge E., (2005), «An index to quantify an individual‘s scientific research output».
- Moed Henk F., Glänzel Wolfgang, Schmoch Ulrich. Handbook of Quantitative Science and Technology Research.
- Официальный сайт компании Bodhtree – www.bodhtree.com.
- Официальный сайт Росстата – www.gks.ru.
- Официальный сайт НИУ «Высшая школа экономики» – www.hse.ru.
- Официальный сайт Head Hunter – www.hh.ru.
- Официальный сайт Минсвязи России – www.minsvyaz.ru.
- www.tadviser.ru.
Ключевые слова: информационное общество, «Большие данные», методы анализа больших данных.
1 Понятие «Большие данные» (англ. Big Data) в информационных технологиях эквивалентно совокупности подходов, инструментов и методов обработки структурированных инеструктурированных данных больших объемов для получения воспринимаемых человеком результатов.
2 http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/about/history.
3 Hirsch, Jorge E., (2005), «An index to quantify an individual‘s scientific research output» – http://arxiv.org/pdf/physics/0508025v5.
4 Нассим Николас Талеб. Черные лебеди. Под знаком непредсказуемости.
5 http://www.hse.ru/news/recent/10953901.html.
6 http://hh.ru/article/14633 – «Рынок труда Москвы: итоги января».
7 http://www.tadviser.ru – «Рынок труда в России (ИТ и телеком)».
8 По информации на официальном сайте Минсвязи России.
9 По информации на официальном сайте Минсвязи России.
10 http://www.minsvyaz.ru/ru/activity/directions/479
Big Data in economic research: sources of information, fields of analysis and required competences
Karasev Oleg, PhD, Acting Head of Statistics Department, faculty of economics of The Lomonosov Moscow State University, assitent professor
Matyuhina Irina, Statistics Department, faculty of economics of The Lomonosov Moscow State University, assitent professor
Legchakov K.E., international business chief expert in a russian state-own company, postgraduate on faculty of economics at the Lomonosov Moscow State University, Kliml@mail.ru.
Petrov Ivan, Graduate from faculty of geology and faculty of higher mathimatics and cybernetics of The Lomonosov Moscow State University, Gazprom Inform Ltd.
Summary: Revolutionary changes at the information sphere conditioned by quantity of intellectual devices, number of internet users, volume and speed of data transaction in broadband channels growth, open new opportunities in different areas of human activities. Economic research is not an exception. As generally known, it requires significant amount of data of different nature contained in various sources to ensure the high quality of analysis. The informational boom foreseen by leading IT-experts in the next 4-5 years will expand frameworks of scientific activities. Statistics and statistical practice due to its objects – mass phenomena and processes in socio-economic sphere – will gain a powerful urge.
There are such methods as bibliometric and patent analysis, web-scraping, social networks analysis, which are now applied in the analytical practice. Quantitative indicators of scientific activities based on these methods are under intent attention in leading countries when forming scientific policies. These approaches are also widely used as tools of S&T and innovation development forecast.
Big data analysis as a part of economic research gives an opportunity to consider systematically an amount of economic agents’ opinions fixed in primary sources, ensuring such a degree of completeness and detail, which could not be reached by traditional expert procedures. Thus, this approach has some drawbacks. Its effectiveness considerably depends on primary data quality. In addition, large-scale English language databases do not fully reflect S&T development of countries speaking other languages. The analysis results depend on the quality of search queries to the database and can vary when changing them. Each of these methods describes the state and prospects of S&T development from different views, and being applied in isolation from other approaches, it creates a false confidence in the correctness of the results and contributes to the linear perception of changes.
The correct application of modern research methods requires appropriate competencies of graduates of economic specialties that need to be developed through educational programs.
The article gives a brief review of modern methods of Big data analysis. The urgent demand of the Russian labour market for specialists with skills of working with Big data as a factor of information society development is proved.
Keywords: information society, Big data, methods of big data analysis.
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|