17 ноября, воскресенье

Интеллектуальный анализ текстов поможет мониторить настроения в соцсетях

12 ноября 2015 / 13:28

Интеллектуальный анализ текстов позволяет спрогнозировать развитие технологий и рынков, определить уровень компетентности отраслевого эксперта и понять, какие тренды в науке наиболее перспективны. О разработках в области анализа текстов рассказал ведущий эксперт Института статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ Илья Кузьминов на международной научно-практической конференции «Форсайт и научно-техническая и инновационная политика».

Текст-майнинг или интеллектуальный анализ текстов (ИАТ) — это направление в сфере Big Data, занимающееся получением информации из коллекций неструктурированных полнотекстовых документов с помощью методов обработки естественного языка и машинного обучения.

Программные продукты ИАТ используются в самых разных областях — от маркетинга и мониторинга настроений в соцсетях до бизнес-разведки и прогнозирования развития науки, технологий и техник, отметил Илья Кузьминов в докладе «Текст-майнинг: анализ полнотекстовых источников и построение онтологий для целей форсайта».

«К примеру, вам нужно понять, как оценивают перспективу того или иного рынка высокотехнологичной продукции к 2020 году, — рассказал Кузьминов о возможном применении текст-майнинга для нужд форсайта. — Программа анализирует большой объем экспертных отчетов, где встречаются нужные синтаксические конструкции, слова-маркеры и близкие к ним по смыслу слова». Алгоритмически выявляются все контексты, где сказано, что, например, по данным исследования, к такому-то году некий показатель достигнет определенного количественного значения. Даже можно вывести на одну страницу все прогнозы разных авторитетных агентств, например, по цене на нефть, и увидеть, сложную картину противоречий в прогнозах. Это уже предмет для научного анализа».

На сегодняшний день в НИУ ВШЭ уже разработано и протестировано собственное программное обеспечение для определения прогнозных оценок, а также для поиска «майлстоунов» (ключевых технологических событий из прошлого) по 31 тематическому направлению и собрана база данных, измеряемая несколькими десятками тысяч документов. При этом делается акцент на качестве анализируемых полнотекстовых источников, а не на их количестве. «Можно было бы собрать несколько миллионов или даже десятков миллионов документов из открытых источников с помощью сканирования веба, но там будет очень много „мусора“, поэтому пока мы концентрируемся на подборке качественных источников, их экспертной валидации», — пояснил Кузьминов.

Сейчас, по словам ученого, формируются словари высокоспецифичных (маркерных) слов, фраз и их синонимических рядов для создания модуля машинной тематической классификации полнотекстовых источников. Также проводится работа над автоматическим формированием принципиально нового продукта Форсайт-центра — структурных таймлайнов научно-технологического развития. «Это некая карта будущего, где прописаны события, которые нас ожидают в ближайшие тридцать лет», — пояснил спикер. Это прикладной продукт, которым заинтересовались два министерства и ряд корпоративных заказчиков.

Еще одна функция текст-майнинга в форсайте — поиск в научных текстах так называемых «слабых сигналов» — сообщений о событиях, которые сейчас воспринимаются, как незначимые и неопределенные, но в перспективе способны радикально изменить будущее.

Одним из способов поиска слабых сигналов является выявление неологизмов. Для поиска таких сообщений необходим полный перечень слов какого-либо языка. Словарь, включающий имена собственные, географические названия, названия химических веществ и биологических видов, типичные опечатки и грамматические ошибки. Сопоставляя слова и словосочетания из научного журнала или из материалов конференции с этим огромным словарем, а также создав несколько дополнительных специфических фильтров, можно вычислять кандидаты в неологизмы, то есть слова, только зарождающиеся в данном языке. Проанализировав значения новых слов, можно спрогнозировать появление отраслей, которые полностью изменят будущее. Ведь, как напомнил эксперт, слова «летчик» или «робот» появились в литературе едва ли не раньше, чем явления, которые они означали.

Технологии важно не только создать, но и внедрить. Текст-майнинг позволяет определить, какие научные понятия перетекают из науки в практику управления, а какие — нет. Для этого, в упрощенном варианте, берутся две коллекции источников: с одной стороны, научные статьи, с другой — прогнозно-аналитические и программные документы международных организаций и национальных отраслевых ведомств.

Так можно увидеть, что какой-то кластер взаимосвязанных понятий активно обсуждаться в научной литературе уже десять лет назад, но до сих пор очень редко задействован в современных документах, связанных с принятием стратегических решений в сфере глобального или госуправления. Это может свидетельствовать о недостаточно интенсивном диалоге науки и практики в данной сфере. Если система понятий, появившаяся буквально в прошлом году, уже активно засвечивается в документах, связанных с госуправлением, то область науки, в которой это понятие возникло, находится под пристальным вниманием лиц, принимающих решения.

Источник


тэги
читайте также