Метод открытой адресации

Видите ли вы недостатки в методе цепочек?

Отличный метод. Недостатков нет.

При создании элемента в связном списке нужно выделять память, при удалении — освобождать. На эти операции тратится время. Кроме того, данные в связном списке хранятся в памяти не последовательно, а в произвольных местах. Поэтому передвижение по цепочке происходит не быстро. Если бы объекты лежали рядом, эти операции выполнялись бы быстрее.

При добавлении элемента нужно выделять память, при удалении — освобождать.

Данные цепочки в памяти компьютера расположены не последовательно, а в произвольных местах.

Тимофей: Другой способ разрешения коллизий — метод открытой адресации.

Добавление ключа:

Вычисляем значение хеш-функции.
Если соответствующая ячейка свободна, записываем туда данные.
Иначе пробуем записать в следующую по порядку свободную ячейку. Дойдя до последнего индекса, переходим к началу таблицы.

Алгоритм поиска элемента:

Вычисляем значение хеш-функции.
Если искомый элемент в этой ячейке, поиск окончен.
Иначе продолжаем искать в следующих по порядку ячейках, пока не встретится пустая.

Удаление ключа чуть сложнее. Нельзя просто удалить данные из ячейки, ведь следом могут быть записаны ключи, которые попали не в свою ячейку. Тогда при операции поиска алгоритм остановится, встретив пустую ячейку. И данные, которые на самом деле присутствуют, не будут найдены.

Гоша: И что же делать?

Тимофей: Решение — помечать удаляемые ячейки специальным значением. Например, “deleted”.

Тогда при вставке нужно проверять “deleted” и вставлять элемент на его место, встретив “deleted”, продолжать алгоритм.

Есть ли недостатки у этого метода?

Нет, при использовании такого похода можно осуществлять операции поиска, вставки и удаления.

Недостаток в том, что при наличии большого количества ячеек, помеченных символом “deleted”, замедляется скорость операций.

Да, при наличии большого количества ячеек, помеченных символом “deleted”, замедляется скорость операций.

Гоша: А как справиться с этой проблемой?

Тимофей: Если количество таких ячеек превышает заданный лимит, нужно перезаписать данные заново в таблицу, но уже без ячеек, помеченных символом “deleted”.

Гоша: Да, логично. Я себя уже чувствую специалистом по хеш-таблицам!

Тимофей: Рано тебя посетило это чувство.

Есть ли недостатки у рассмотренного метода?

Нет недостатков.

При рассмотренной стратегии пробирования могут образовываться кластеры. В уроке про свойства хорошей хеш-функции мы говорили, что это плохо. Сейчас узнаете почему.

Да, при рассмотренной стратегии пробирования могут образовываться кластеры.

Предположим, в таблице рядом записаны

k

ключей. Тогда при попытке поиска или записи нужно проделать

O(k)

операций. Чем больше кластер, тем менее эффективным будет использование хеш-таблицы.

Гоша: Можно ли как-то с этим бороться?

Тимофей: Да. Но проблема в том, что на каждом шаге при попытке записи мы пойдём в следующую ячейку.

То есть

h(k, i) = h(k) + i

— плохая стратегия.

Гоша: А какая хорошая, идти в предыдущую ячейку?

Тимофей: Нет. Вообще последовательность ячеек, куда мы хотим вставить элемент, — это перестановка чисел от 0 до

m-1

, где

m

— размер таблицы.

Нужно подобрать такую последовательность чисел, которая перебирала бы все значения, но не по порядку. Сделав

m

проб, нужно попробовать вставить элемент в каждую из

m

ячеек.

Рассмотренный алгоритм можно улучшить.

h(k, i) = h(k) + c \cdot i

То есть будем ходить с некоторым шагом

c

Гоша: А

c

может быть любое?

Тимофей: Не любое,

c

m

должны быть взаимно простые. Иначе будем ходить по одним и тем же ячейкам.

Например, если

c = 2

m

— чётное число, то в ячейки с нечётными номерами мы никогда не попадём.

Рита: Можно, например, брать в качестве m степень двойки, а в качестве

c

— простое число.

Варианты, в которых мы делаем единичный шаг и шаг

c

, относятся к методам линейного пробирования.

Есть ли недостатки у методов линейного пробирования?

У варианта с единичным шагом есть недостаток. При его использовании будут образовываться кластеры. Второй метод не имеет недостатков.

Недостаток обеих стратегий в том, что если для двух различных значений входных данных совпадает номер ячейки, то дальше обе последовательности проб будут совпадать.

Есть, ведь если два различных значения входных данных имеют один и тот же номер ячейки, то дальше обе последовательности будут совпадать.

Рассмотрим метод квадратичного пробирования.

h(k, i) = h(k) + c_1 \cdot i + c_2 \cdot i ^ 2

В этом случае разные итерации пробирования двух элементов шагают по-разному.

Гоша: А как подобрать коэффициенты

c_1

c_2

, чтобы покрыть все ячейки, сделав

m

проб?

Рита: Можно вот так:

\displaystyle h(k, i) = h(k) + \frac{i}{2} + \frac{i^2}{2}

Тимофей:

\displaystyle h(k, i) = h(k) + \frac{i\cdot(i + 1)}{2}

Кто из ребят прав?

Рита

Прав Тимофей. В варианте Риты при делении на 2 может получиться нецелое значение. А мы вычисляем номер ячейки массива. В варианте Тимофея в числителе дроби обязательно будет чётное число. Так что при делении на 2 проблем не возникнет.

Тимофей

Оба, эти выражения равны.

Есть ли недостатки у метода квадратичного пробирования?

Нет, метод справляется с проблемой, которая возникает при линейном пробировании.

Недостаток метода в том, что если у двух ключей совпадают начальные позиции проб, то дальше они будут двигаться по одним и тем же ячейкам.

Да, если у двух ключей совпадают начальные позиции проб, то дальше они будут двигаться по одним и тем же ячейкам.

Алла: Как же с этим бороться?

Тимофей: Поможет двойное хеширование.

h(k, i) = h_1(k) + h_2(k) \cdot i

Будем ходить с шагом, индивидуальным для ключа. Даже если

h_1

для двух ключей совпадёт, то вероятность совпадения

h_2

для них очень маленькая.

Гоша: А как в этом случае обеспечить перебор всех ячеек?

Тимофей: Шаг, как и ранее, должен быть взаимно простым с размером таблицы.

h_2

должна быть нечётной, а

h_1

можно брать произвольной.

Время работы хеш-таблицы с использованием метода открытой адресации:

В лучшем случае:

O(1)

В худшем:

O(n)

В среднем:

\displaystyle O\left (\frac{1}{1 - \alpha} \right )

, где

\alpha

— коэффициент заполненности таблицы.

Решите задачи F, G: https://contest.yandex.ru/contest/19095/problems/F