Коллизии. Метод цепочек

Алла: А часто вообще коллизии возникают на практике?

Тимофей: Чтобы ответить на этот вопрос, рассмотрим пример. Вы слышали про парадокс дней рождений?

Алла: Нет, расскажи, пожалуйста.

Сколько нужно взять человек, чтобы вероятность совпадения дней рождений хотя бы двух превышала 50%?

Вычислим вероятность, что все дни рождения будут в разные даты. Для этого посчитаем произведение вероятностей того, что день рождение каждого человека не совпадёт ни с чьим другим.

Для первого человека такая вероятность будет равна 1. Для второго человека —

1 - \frac{1}{365}

, так как один день уже занят. Для второго занято будет уже 2 дня. И так далее.

\displaystyle \tilde{p}(n)=1 \cdot\left(1-\frac{1}{365}\right) \cdot\left(1-\frac{2}{365}\right) \cdots\left(1-\frac{n-1}{365}\right)=\frac{365 \cdot 364 \cdots(365-n+1)}{365^{n}}=\frac{365 !}{365^{n}(365-n) !}

Нас интересует событие, обратное этому.

p(n) = 1 - \tilde{p}(n).

Посмотрим на график зависимости вероятности минимум двух совпадений от количества людей:

Если взять 23 человека, вероятность будет 50%.

Значит, что если взять таблицу, в которой 365 значений, и расположить в ней 23 ключа, то уже в этом случае вероятность коллизии будет 50%.

Построить хеш-таблицу, в которой никогда не будет коллизий, — сложно, поэтому нужно уметь бороться с ними.

Коллизия — это ситуация, когда для разных данных функция возвращает одно и то же значение.

Гоша: А что же делать в таком случае?

Тимофей: Существуют разные способы решения этой проблемы. Например, метод цепочек.

Вам хорошо знакома такая структура данных как связный список. Её используют в методе цепочек при разрешении коллизий.

Допустим, нужно добавить ключ:

Вычисляем значение хеш-функции $x$ от добавляемого ключа.
Находим $H[x]$ — указатель на список ключей.
Вставляем элемент в связный список.

Куда бы вы добавили элемент в хеш-таблицу в связном списке?

В начало

Верно, лучше добавлять новый элемент в голову связного списка, так как сложность этой операции константная, в отличие от добавления в конец или середину.

В конец

В середину

В любое место

При удалении ключа нужно:

Вычислить значение хеш-функции $x$ от ключа.
Найти $H[x]$ — указатель на список ключей.
Выполнить поиск ключа в связном списке и удалить его.

Какая сложность операции удаления в лучшем случае?

O(1)

Верно, сложность удаления такого элемента константная, так как в лучшем случае удаляемый элемент находится в голове списка.

O(n)

O(\log n)

O(n \log n)

Какая сложность операции удаления в худшем случае?

O(1)

В худшем случае получим линейную сложность. Для поиска элемента, возможно, придётся просмотреть их все.

O(n)

O(\log n)

O(n \log n)

Гоша: А какое среднее время работы всех операций?

Тимофей: Среднее время работы операции удаления, поиска и вставки в хеш-таблицу, реализованную с использованием метода цепочек, равно

O(1+a)

, где

a

— коэффициент заполненности таблицы (англ. fill factor).

a =\displaystyle \frac{N}{M}

, где

N

— количество элементов в таблице, а

M

— размер таблицы.

Гоша: А почему именно

O(1+a)

Тимофей: Найдём ожидаемое время работы в зависимости от исходного ключа.

Время обработки

T(k)

ключа

k

зависит от длины цепочки и равно

O(1 + N_i(k))

, где

N_i

— длина i-й цепочки. Единица затратится на вычисление значения хеш-функции,

N_i(k)

— на поиск элемента в цепочке. Предполагаем, что хеш-функция равномерная, то есть все значения равновероятны. Тогда:

T_{cp}(M,N) = E(T(k)),

где

E

— математическое ожидание времени работы в зависимости от ключа

k

В каждую ячейку попадём с вероятностью

\displaystyle \frac {1}{M}

\displaystyle E(T(k))=\sum_{i=0}^{M-1} \frac{1}{M}\left(1+N_{i}\right)

Если попадаем в ячейку

i

, то время работы

1+N_{i}

— именно столько потребуется, чтобы пройти всю цепочку.

\displaystyle E(T(k))=\sum_{i=0}^{M-1} \frac{1}{M}\left(1+N_{i}\right)=\frac{1}{M} \sum_{i=0}^{M-1}\left(1+N_{i}\right)

Единица суммируется

M

раз, суммарная длина всех цепочек равна

N

\displaystyle \frac{1}{M} \sum_{i=0}^{M-1}\left(1+N_{i}\right)=\frac{1}{M} \cdot (M+N) = \frac{M+N}{M}= 1+\frac{N}{M} = 1+\alpha

Среднее время можно регулировать. В зависимости от объёма данных, которые предполагается хранить в хеш-таблице, можно выбирать размер таблицы так, чтобы значение a не превышало определённый порог.

Допустим, планируется хранить около 1000 элементов в таблице. Нужно, чтобы

T_{cp}(N,M)

не превышало 3. Какой выберете размер хеш-таблицы?

2000

T_{cp}(N,M)=1+\alpha=1+N

N=1000

T_{cp}(N,M)=3

Берём максимальное допустимое значение.

\displaystyle 3 =1+\frac{1000}{M}

\displaystyle \frac{1000}{M} =2

M = 500

3000

3500

500

250

750