Представьте, что вы только что получили таблицу с новыми данными. Вы имеете общее представление об этих данных. Но прежде чем решить, какую гипотезу проверять на них, и с какими трудностями вы можете столкнуться, необходимо тщательно проверить их качество и исследовать данные. В противном случае вы не сможете определить эффективность модели, созданной на основе этих данных, а также не сможете разработать стратегию обработки выбросов и отсутствующих значений.

В связи с этим важным этапом интеллектуального анализа данных является поисковый анализ (анг. EDA – exploratory data analysis).
Что такое “поисковый анализ данных”?
Принцип поискового анализа данных (EDA) описал Джон Тьюки (John Tukey). Еще в конце 1970-х гг. он впервые писал о необходимости проверки данных перед тем, как тестировать на них гипотезу или строить прогностические модели. С тех пор поисковый анализ данных стал неотъемлемой частью любой методологии глубокого анализа данных, включая CRISP-DM, KDD и SEMMA. Поисковый анализ данных позволяет исследователю оценить данные и лучше узнать их, прежде чем тратить время на их непосредственный анализ, для того, чтобы ставить реальные аналитические задачи и находить более эффективные решения.
Поисковый анализ данных позволяет решить следующие задачи:
- Составление общего представления о данных
- Выявление шаблонов
- Формулировка гипотезы
- Проверка предположений
- Сбор статистической информации о данных
- Распределение данных
- Ключевые статистические показатели (среднее, медиана, диапазон, стандартное отклонение и др.)
- Выявление аномалий в данных
- Выбросы
- Отсутствующие значения
Основу методологии поискового анализа данных составляют методы графического представления данных, но это не умаляет значения инструментов количественного анализа. Более подробная информация о поисковом анализе данных представлена в руководстве Информационно-технической лаборатории NIST.
Поисковый анализ данных с помощью системы PolyAnalyst
Пользователи PolyAnalyst знают, что система предлагает целый ряд инструментов для анализа структурированных и текстовых данных. Узлы загрузки данных автоматически отображают общие тенденции в данных в одномерном формате.
Например, после загрузки таблицы с данными о машинах из папки с примерами, аналитик может сразу просмотреть таблицу и понять, какие переменные и типы данных в ней присутствуют.

На вкладке Статистика в окне просмотра любого табличного узла представлены разные статистические параметры всех переменных, что позволяет быстро определить наличие таких аномалий в данных, как выбросы и отсутствующие значения. Например, изучив среднее, медиану, диапазон и стандартное отклонение переменной Power (мощность), вы увидите, что в данной таблице 6 отсутствующих значений.

Наконец, на вкладке Уникальные записи приводится список всех уникальных значений выбранной переменной, а также их относительное процентное распределение среди других значений. В таблице с данными о машинах вы также можете просмотреть все значения колонки Year (год производства) и их относительное распределение.

Встроенные инструменты поискового анализа в PolyAnalyst
Изучив основные параметры переменных, как описано выше, вы можете составить план очистки и анализа данных. Если вы хотите сравнить соотношение наборов переменных в двухмерном или многомерном пространстве, вы можете использовать многочисленные графические узлы, такие как Столбчатая диаграмма или Диаграмма рассеяния. Они быстро настраиваются, быстро выполняются и позволяют изучить связи между переменными. Но есть ряд встроенных инструментов EDA в PolyAnalyst, которые достойны особого внимания. К ним относятся узлы Аудит данных и Анализ статистических распределений.
Рассмотрим принципы их работы подробнее.
Узел Аудит данных

Узел Аудит данных – удобный инструмент поискового анализа данных, который позволяет быстро изучить новую таблицу и получить ценную информацию о данных. Этот узел обычно не имеет дочерних узлов в проекте. Его главная задача – помочь пользователю выбрать необходимые способы очистки, подготовки и анализа данных.
На этапе настройки узла вы можете выбрать колонки (переменные) для анализа, по которым хотите получить полную статистику или в которых хотите найти аномалии. Отчет узла содержит основную статистическую информацию и показатели аномальности данных, о которых необходимо знать исследователю, прежде чем приступать к применению прогностической или классификационной модели. Ниже приводится пример отчета узла, который проанализировал таблицу с описаниями преступлений из папки с примерами:

Отчет узла Аудит данных содержит несколько (в зависимости от типов данных) вкладок, на которых отображаются выявленные аномалии. В примере, приведенном выше, в нижней панели показано, что система обнаружила три записи, которые могут быть аномальными в связи с тем, что даты в них не входят в диапазон, который образуют большинство записей (1997-2005 годы).
Узел Анализ статистических распределений

Узел Анализ статистических распределений в PolyAnalyst – полезный инструмент для анализа трендов и распределений числовых значений в таблице данных. Наряду со статистическими данными, узел определяет распределения (нормальные, экспоненциальные, двойные экспоненциальные, логнормальные и равномерные), выполняет общую проверку гипотезы
и группирует переменные на основе такой проверки. Во время настройки узла пользователи могут выбрать переменные для анализа, указать уровень значимости и другие параметры статистической поверки, которую предстоит выполнить.
Итоговой отчет содержит список всех проведенных статистических проверок и их результаты. В отчете также отображаются подобранные распределения и хвосты распределений, которые можно добавить к исходной таблице в виде отдельной колонки. Отчет узла Анализ статистических распределений удобно использовать для машинного обучения или создания прогностической модели.
Рассмотрим работу узла на примере таблицы с данными о машинах:

Анализ статистических распределений в данном случае был выполнен для переменной MPG (миль на галлон топлива) для автомобилей, сгруппированных по стране-производителю (Origin) (т.е. Европа, Япония, США). Полученный отчет отображает распределение переменной MPG по каждому производителю (верхняя таблица). Выбрав одного производителя в колонке Origin (например, Европу), пользователь может просмотреть информацию о статистической проверке, которая позволила определить, что данная выборка имеет логнормальное распределение.
На вкладке Характеристики распределений, для выбранного подмножества записей отображается график подобранных распределений. Например, если выбрать подмножество машин, произведенных в Европе, мы увидим кривую логнормального распределения.

Результаты, полученные в ходе анализа статистических распределений, можно добавить к исходной таблице в виде отдельной колонки. Например, на рисунке ниже колонки со значимостью MPG (синий контур) и статусом (красный контур) добавлены к исходной таблице данных, и могут быть в дальнейшем использованы для анализа аномалий (если данные образуют верхний или нижний хвост выявленных распределений).

Мы рассмотрели лишь некоторые из многочисленных инструментов поискового анализа данных, используемых в системе PolyAnalyst для оценки качества данных. Подробнее о возможностях системы PolyAnalyst см. здесь. Обратитесь к нам, и мы предоставим бесплатную демонстрационную версию любого из наших продуктов.