В аналитическом проекте, предполагающем анализ текста, пользователю бывает сложно определить, с чего начать. Язык — сложный феномен. Он выполняет огромное количество коммуникативных задач, часто с помощью одного и того же предложения.
Для того, чтобы понять, с чего начать анализ текстовых данных, ответьте на следующие вопросы:
- Что я хочу найти?
- Как то, что я хочу найти, выражено в языке?
Первый вопрос позволяет представить конечную цель вашего проекта. Например, вы хотите узнать, какие отзывы оставляют потребители о вашей продукции. Или вы хотите выяснить, какие роли выполняют упоминаемые в отчете о ДТП для страховой компании люди. Или, возможно, проанализировав записи в медицинских книжках пациентов, вам нужно выяснить, какую реакцию у них вызывает тот или иной медицинский препарат.
Второй из приведенных выше вопросов наиболее сложный. Одно и то же явление может быть описано разными словами и выражениями. Описание может быть составлено так, что компьютер не сможет его понять так же быстро, как человек. Например, именованная сущность в тексте требования о выплате страховки может быть выражена именем (Джон Смит), местоимением (он или его), существительным, описанным каким-либо атрибутом (лицо, предъявляющее требование) или ссылкой на другую сущность (красная Mazda, автомобиль лица, предъявившего требование о выплате страховки). Компьютеры научились легко распознавать структурные модели, а вот понятия более высокого порядка, например, поведение людей, они пока измерить не могут. Выражение “Где же ваша клиентская служба?” на самом деле вовсе не является вопросом о местонахождении службы клиентской поддержки, а означает, что клиент не доволен качеством обслуживания. Однако компьютеры умеют извлекать такие сложные абстрактные значения, установив их связи с конкретными структурными элементами.
Для этого важно понимать, что язык имеет несколько уровней, которые тесно связаны друг с другом и с рядом социальных явлений.
Приведенная ниже информация основана на выделении 4 уровней языкового анализа, описанных в работе С. Херинга 1. Несмотря на то, что данная категоризация языка была разработана для он-лайн коммуникации, она может быть применена и к традиционному тексту в электронном формате. В качестве примера рассмотрим следующий фрагмент переписки в сети Twitter:
Структура
Первый и основной уровень языка — структурный уровень (L1). Он представлен шаблонами, которые могут быть легко распознаны и посчитаны. Например, слово представляет собой строковой шаблон, который может быть распознан, и чью частотность можно легко определить, так же, как и распознать и определить частотность другого шаблона — синтаксической связи между двумя словами. В примере, приведенном выше, предложение “The scooter hits home” представляет такой шаблон: “the [noun or noun phrase] hit home”. Компьютеры легко распознают такие шаблоны, поэтому мы обычно пытаемся обнаружить структурные выражения языковых явлений, которые нас интересуют.
При этом учитывать следует несколько разных структурных аспектов:
Типографика. Символы, используемые в слове, и их формат. Например, в процессе он-лайн коммуникации на английском языке пользователи могут заменять буквы числами: gr8t (great). Кроме того, некоторые пользователи могут использовать латинские буквы в языках с нелатинской системой письменности.
Орфография. Правописание слов.
Морфология. Разные формы слова (walk, walks, walking). В зависимости от категории (части речи), к которой относится слово, оно может принимать разные формы в зависимости от грамматических правил.
Syntax. Отношения между словами.
Схема дискурса. Структурные шаблоны на макроуровне текста, которые представляют стилистические отличия и организацию текстов и зависят от специфики текстовых жанров.
Значение
Второй уровень языка — значение, которое мы связываем с буквами, словами или фразами (L2). Значение может быть субъективным, а также одно значение может соотноситься с разными структурными шаблонами. Например, положительная оценка выражается словами хорошо, отлично и прекрасно. Слова и выражения нехорошо, плохо и из рук вон плохо — шаблоны, которые используются для выражения отрицательной оценки объектов или явлений. В качестве примера можно также привести следующую фразу-шаблон: the claimant hit the insured (истец ударил застрахованное лицо). Очевидно, что значение этой фразы сильно изменится, если поменять местами подлежащее и дополнение: the insured hit the claimant. В приведенном выше примере из публикации в сети Twitter шаблон “the [noun or noun phrase] hit home имеет значение “это произвело на меня впечатление/шутка про скутер шикарна”.
Взаимодействие
Взаимодействие означает способ общения между людьми в диалоге. Этот уровень языка (L3) имеет особое значение для анализа он-лайн коммуникации. В этом случае мы ищем шаблоны, которые выражают отношения между сущностями, определяем, являются ли сущности людьми (анализ социальных сетей) или темами (развитие темы). В примере с твитом, приведенным выше, видно, что Пользователь 1 (User1) взаимодействует с Компанией X (CompanyX). Пользователь 2 (User2) взаимодействует и с User1, и с CompanyX, реагируя на исходную публикацию — а затем User1 отвечает только User2 (@User2). Таким образом, взаимодействие между пользователями User1, User 2 и компанией CompanyX можно наглядно представить в виде следующей схемы:
Поведение
Наконец, высший уровень языкового анализа (L4) предполагает анализ социальных явлений в языке: стили дискурса, обусловленные такими социальными факторами, как возраст и пол, выражения статуса, формы вежливости, конфликт, отрицание и др. Люди обладают знаниями о социальных конструктах и легко связывают их со структурными шаблонами в тексте, поскольку в течение жизни мы активно взаимодействуем с другими людьми в разных ситуациях общения. Социальные явления в языке сильно зависят от контекста и могут быть выражены в тексте посредством огромного количества различных структурных шаблонов в зависимости от контекста. Например, первый твит в приведенном примере выражает иронию, которая носит глубоко контекстуальный характер. Твит буквально означает, что перечисленные в нем вещи (удар по голени колесом скутера, бумажные порезы на ладонях, удар ногой о ножку стола) лучше обновлений от компании Company X; однако наше знание жизни позволяет нам понять разрыв между словом лучше и отрицательными явлениями, которые оно описывает, который и ложится в основу иронии. Следовательно, на этом уровне языкового анализа важно находить структурные элементы, которые определяют контекст (лучше + слова/фразы с отрицательным значением), и которые позволяют распознавать языковые явления для достижения конечной цели исследовательского проекта.
Выбор уровня языка для анализа
В ходе выполнения задач по анализу текста в автоматизированном режиме мы обычно оперируем единицами первого, структурного уровня. Компьютеры обычно легко справляются со структурными шаблонами, но распознавать социальные явления в тексте им сложно. В связи с этим, даже если в ходе анализа текста мы пытаемся обнаружить в нем какие-то сложные языковые единицы и конструкты (значение, взаимодействие, поведение), мы связываем их с элементами структурного уровня, которые компьютер в состоянии достаточно точно распознать и извлечь.