При анализе данных наибольшее неудобство обычно вызывает необходимость записывать этапы проделанной работы. Хотя в этом есть определённые плюсы: такие записи могут помочь другим людям быстро сориентироваться в вашем проекте или по истечении времени вам будет легче вспомнить, что вы делали, но монотонность сбора необходимых сведений часто приводит к тому, что этапы проделанной работы документально не оформляются. Следствием отсутствия документации станет то, что ваш анализ будет иметь технические недостатки. Собранная в анализе данных информация не будет столь ценна, если вы не сможете объяснить полученные результаты и восстановить добытые сведения.
Что из себя представляют технические недостатки?
Термин «технические недостатки» имеет разные интерпретации в зависимости от контекста. В основном он означает, что какой-то проект был начат и должным образом не закончен.
Такой недостаток, как отсутствие документального оформления, становится причиной скрытых затрат при анализировании данных, причем, как правило, объяснять все этапы проделанной работы нужно в кратчайшие сроки. Отсутствие документального оформления дает о себе знать не сразу, а когда меняются цели анализа или анализ необходимо выполнить заново.
Кажется, люди повсеместно не желают объяснять этапы выполненной работы. Вероятно, это порождение образовательной среды или интеллектуального высокомерия. Задача компании Megaputer – взглянуть под другим углом на процесс документального ведения проекта и в конечном итоге уменьшить затраты и увеличить прибыль.
Как избежать технических недостатков?
Во-первых, необходимо осознать, что анализ данных – это процесс, который не только нужно осуществить, но и время от времени поддерживать. Мы полагаем, что в этом нам поможет самодокументирование1. Анализ считается самодокументируемым, когда не применяется никаких дополнительных затрат для генерирования документации по проводимому анализу: этапы самостоятельно документируются по мере выполнения анализа. Такая документация является персонифицированной и будто живет жизнью, в которой в режиме реального времени автоматически записывается ее биография. Нет никакой необходимости нанимать биографа ближе к концу жизни, поскольку все этапы прожитой жизни уже будут зафиксированы.
В основе PolyAnalyst лежит именно вышеуказанный принцип. Автоматическая запись ваших действий в журнал (не просто текстовый журнал!) ведется уже тогда, когда вы используете PolyAnalyst, как вам кажется, для получения результатов анализа. Анализ – это реализация отдельных аналитических этапов, которые вы собираете вместе для формирования аналитической шаговой последовательности. Шагом, как правило, что-то простое: перемещение данных из одной базы данных в другую или изменения положения колонок и строк таблицы, или создание модели машинного обучения. Все ваши последовательные действия формируют ваш анализ. Когда к вашим последовательным действиям добавляется еще одно действие, то в это время параллельно ведется запись предыдущего действия. Называя соответствующим образом каждый шаг, вы описываете действие этого шага. Стоит отметить, что трудозатраты на наименование шага и построение последовательности шагов довольно несущественны – в масштабах общей работы эта часть работы ничтожна. Косвенным образом вы принимаете решения, как объясните ваш анализ другим заинтересованным лицам – это происходит в тот же момент, когда вы решаете выполнить следующий аналитический этап.
Внедряя требования документации непосредственно в сам подход, ваша работа естественным образом становится самодокументируемой. По нашему мнению, самодокументирование – это жизненно важная функция при создании аналитического продукта. Результаты анализа не говорят сами за себя, их нужно подкреплять объяснениями, а PolyAnalyst способен существенно упростить эту задачу. Если ваш анализ легко объяснить и модифицировать, вы разрабатываете его с учетом того, что в будущем он будет использоваться, то у вас будет больше возможностей для работы со следующими аналитическим задачами, или если будет необходимо вернуться к старым проектам, то вы сразу сможете начать с того места, где остановились.
- См., например, https://en.wikipedia.org/wiki/Self-documenting_code