Если вы решите задать вопрос, “Что делают инструменты текстового анализа??”, ?», пяти разным людям, то, скорее всего, получите пять разных ответов. Термин Текстовый анализ используется для обозначения целого ряда задач, связанных с определением ключевой информации в тексте: от простой структурированной до более сложной, написанной на языке высокого уровня. К инструментам текстового анализа так же относятся и конвертирование аудиозаписей в текст, Оптическое Распознавание (англ. optical character recognition, OCR); но стоит обратить внимание, что данные инструменты решают не основные, а первичные задачи текстового анализа, связанные с подготовкой данных.
Инструменты текстового анализа направлены не только на выполнение различных задач, но так же и на различный контингент пользователей. Например, запросы исследователя, изучающего реакцию людей в Твиттере во время предвыборных дебатов, могут отличаться от запросов медицинского сотрудника, создающего модель для определения сепсиса в историях болезней. Ко всему прочему, некоторые инструменты требуют от пользователя знание языков программирования, например, Python или Java, а другие наоборот предлагают использовать Графический Пользовательский Интерфейс.
Рассмотрим наиболее популярные инструменты текстового анализа.