По умолчанию в PolyAnalyst предустановлены несколько разных словарей, которые удовлетворяют базовым потребностям в различных сферах применения: морфологический словарь, словарь синонимов, словарь личных имен. Однако когда вы работаете с тематической таблицей данных, в которой, например, содержатся медицинские данные или данные по ремонту автомобилей, то без специализированных словарей с соответствующими терминами не обойтись.
Зачем нужны специализированные словари?
Как вы, возможно, знаете, любой запрос может привести как к ложно-положительным, так и к ложно-отрицательным результатам. Допустим, у вас имеется отрывок из вашего набора данных по ремонту автомобилей (приведен ниже); результат запроса «Какая проблема возникает у той или иной детали автомобиля?» соответствует выделенным частям в этом отрывке.
Обратите внимание, что есть один ложно-положительный ответ, «шум при больших скоростях» (noise at highway speeds), когда «большая скорость» (highway speeds) идентифицирована как деталь автомобиля, что некорректно. Так же выделены два ложно-отрицательных ответа «передние щетки стеклоочистителя оставляют полосы на стекле» (front wipers streaking glass) и «осечка в цилиндре 6» (misfire in cylinder 6), которые не подошли под запрос. Как это можно исправить? Например, изменить запрос, но есть большая вероятность, что при проверке результатов получите еще больше ложно-положительных и/или ложно-отрицательных результатов ответов. Есть ли у вас желание постоянно редактировать запросы?
Чтобы избежать ложно-положительных результатов и включить в ответ любые ложно-отрицательные результаты не обязательно постоянно изменять запросы. Наиболее эффективный способ найти нужный результат – использовать словари. Например, для того чтобы улучшить результат ложно-отрицательных ответов, составьте словарь релевантных автомобильных терминов. Затем, создав словарь стоп-слов, удалите ложно-положительные ответы, которые не будут полезны при поиске запчастей автомобиля. В итоге вы получите не только словари многоразового использования, но и возможность писать более понятные для анализа запросы.
Как вы уже поняли, использование словарей в запросах может существенно повысить точность ответов. Увеличение объема ваших словарей скорее всего положительно отразится и на результатах. Например, при поиске моделей, идентифицирующих запчасти и связанные с ними поломки, рекомендуем добавить известные запчасти в словарь, чтобы получить надежные результаты или обнаружить новый способ решения проблемы. В частности, если вы добавите «щетку стеклоочистителя» и «цилиндр» в ваш словарь запасных частей автомобиля, то ваш запрос автоматически будет находить соответствия в таких сочетаниях, как, например, ««неисправность щетки стеклоочистителя» (wiper malfunction), «неисправность цилиндра» (cylinder malfunction), «неисправная щетка стеклоочистителя» (faulty wiper), «неисправный цилиндр» (faulty cylinder) и т. д.
Как создать такой словарь?
Специализированный словарь легко создается С помощью PolyAnalyst специализированный словарь создать легко. При помощи узлов Извлечение сущностей и Извлечение ключевых слов, можно извлечь интересующие данные. Что делать дальше после извлечения данных с желаемой моделью? Каждый ли термин в списке именно тот, что нам нужен? В действительности в полученных вами результатах зачастую будут встречаться нежелательные термины – это связано со структурой естественного языка. Тогда сразу возникает другой вопрос: как от них избавиться?
К счастью, при помощи PolyAnalyst пользователи имеют возможность проверить результаты извлечения и быть уверенными, что список извлеченных терминов, используемый в следующих версиях словарей, является релевантным и точным.
Пример создания Словаря Медицинских Устройств:
Допустим, у вас имеется таблица данных по ремонту медицинских приборов. Используйте вышеуказанный метод для создания словаря составляющих устройства. Поскольку компоненты – это существительные, то можно использовать узлы PolyAnalyst, извлекающие данные, и создать список часто используемых существительных.
Когда у вас будет список возможных компонентов, вы можете приступить к их утверждению, затем экспортировать в словарь компонентов приборов те из них, которые содержат маркировку Valid. Таким образом, вы получите проверенный словарь для анализа.
Ниже пример утверждения компонентов медицинских устройств с использованием узла Извлечение Сущностей с кастомизированным запросом.
Когда у вас будет больше данных о медицинских устройствах, то при помощи такого же запроса, который мы использовали в этом словаре, вы автоматически получите куда более значительный перечень данных. Таким образом, нет необходимости пересоздавать словарь для новых данных.
Если коротко, то специализированные словари помогают аналитикам сохранять простые запросы и получать больший перечень данных более эффективном способом.