Нормализация данных как подготовка к поиску нечетких соответствий
При сравнении сущностей, которые сохранены в виде строковых значений, необходимо учитывать тот факт, что некоторые фрагменты строк могут отличаться. Например, в данных могут встретиться следующие имена: Steven M Johnson Steve Michael Johnson Когда мы сравниваем такие сущности, мы воспринимаем строку не целиком, а по отдельным подстрокам. Поэтому подстроку “Steven” мы сравниваем с подстрокой “Steve,” “M” – с “Michael,” а “Johnson” – с “Johnson”. Это происходит потому, что человек понимает, что…