За последние несколько лет все больше организаций стали полагаться на машинное обучение (которое также описывается термином «искусственный интеллект», или ИИ) при решении задач текстовой аналитики. Это связано с тем, что такой подход позволяет экономить время, подходит для работы с данными большого объема, легко адаптируется под новый контекст, поскольку он не опирается на жестко заданные правила. Однако качество работы алгоритмов искусственного интеллекта напрямую зависит от качества тех данных, которые используются для обучения моделей.
Для того чтобы создать эффективную обучающую выборку для создания модели, как правило, эксперту приходится сначала вручную классифицировать записи исходной таблицы данных. Такие обучающие таблицы называют «золотым стандартом данных», который не так просто заполучить: для того, чтобы максимально точно тегировать данные, может потребоваться много времени и ресурсов на оплату труда специально обученных аналитиков. В связи с этим многие системы машинного обучения используют статистический подход для категоризации обучающих данных, что позволяет получить результат большой полноты, но низкой точности.

Что такое «подход, основанный на правилах»?
Подход к классификации данных, основанный на правилах, в последнее время существенно уступает по популярности системам машинного обучения. Однако у него есть несколько очень важных преимуществ. В связи с тем, что правила создает человек, последующая классификация данных на их основе позволяет получить более точный и последовательный результат. В таком случае также бывает гораздо легче понять логику классификационной модели и усовершенствовать саму модель, вместо того, чтобы пытаться расшифровать «черный ящик» систем машинного обучения. Главный недостаток такого подхода состоит в том, что правила имеют жесткую, ригидную структуру, и не могут быть изменены в зависимости от контекста. Такой подход обеспечивает высокую точность классификации данных, но полнота результата при этом сокращается.
В идеале мы все хотели бы иметь возможность сочетать оба подхода так, чтобы можно было гарантировать полноту охвата данных с высокой точностью классификации. Как же этого добиться?
Правила – основа основ
Решение, которое предлагает компания Megaputer, предполагает использование правил для создания обучающих таблиц данных. Такой подход строится на основе высокоточного языка поисковых запросов PDL (от анг. pattern definition language), который позволяет избежать тегирования таблицы и при этом получить сопоставимый по точности и полноте результат. В системе PolyAnalyst язык PDL позволяет выполнять поиск по тексту и измерять его характеристики; с его помощью эксперт может обучить машину распознаванию и классификации таких признаков текста, которые необходимы для создания обучающих подмножеств данных высокого качества.

После того, как эксперт настроит работу машины и создаст набор обучающих данных, компьютер сможет применить эти знания в новом контексте благодаря возможностям машинного обучения.
Шаг вперед
Таким образом, совместное использование правил и машинного обучения позволяет гарантировать высокую точность и полноту обучающих подмножеств данных. Если вы хотите автоматизировать процесс создания точных обучающих таблиц данных с тем, чтобы усовершенствовать модели машинного обучения, напишите нам, и мы расскажем вам об имеющихся инструментах.
