Начиная с версии 6.0.920, PolyAnalyst предлагает пользователям новый инструмент – узел Уникальные тексты. Данный узел выполняет операцию по очистке данных. Он исследует ряд текстовых документов и ищет в них повторяющиеся записи. Если любые два документа окажутся в достаточной степени “подобными”, один из них может быть в автоматическом режиме удален из таблицы данных. На выходе узел генерирует новую таблицу, которая не содержит записей-дубликатов, а также отчет о том, какие документы были удалены.
Такая очистка данных – важный подготовительный этап статистического анализа неструктурированных данных. Присутствие дубликатов может существенно исказить статистику вхождения ключевых слов в набор текстовых данных, поскольку такая метрика как частота слова будет неточной из-за того, что одни и те же слова засчитываются несколько раз. Таким образом, предварительно очистив таблицу данных от повторяющихся записей, вы сможете получить более точный статистический результат.
За дополнительной информацией вы можете обратиться в отдел продаж компании Megaputer.