7.1  Алгоритм LZ77

 

Основна ідея алгоритму LZ77 полягає в тому, що друге і подальші входження деякого підрядка символів у повідомленні замінюються покажчиками на його перше або попереднє входження. Алгоритм використовує частину повідомлення, що вже проглянуто, як словник. Щоб добитися стиснення, він намагається замінити наступну фразу повідомлення покажчиком на вміст словника.

Позначимо через N розмір «ковзного» вікна; F - розмір буфера. Тоді перші N-F символів - це вже закодовані символи, що містить словник, а останні F символів – вміст випереджуючого буфера.

При кодуванні вмісту буфера серед попередніх N-F символів, тобто у словнику, шукається найдовший підрядок, що збігається з початком буфера. Знайдений найбільший збіг кодується тріадою <i, j, a>, де i - зсув у словнику підрядка, що збігається із початком буфера; j - довжина підрядка, що збігається; а - перший символ, що йде за підрядком, що збігається. Далі алгоритм зсовує увесь вміст вікна на j+1 символів і водночас зчитує стільки ж символів вхідного потоку у буфер.

Об'єм пам'яті, що потребує алгоритм-кодер або декодер, визначається розміром вікна N. Довжина коду обчислюється так: довжина підрядка, що співпав із вмістом словника, не може бути більше розміру буфера F, а зсув цього підрядка у словнику не може бути більше розміру словника мінус 1. Отже, довжина двійкового коду зсуву i буде округлений до більшого цілого , а довжина коду довжини підрядка j буде округлений у більшу сторону , а символ а кодується 8 бітами за таблицею ASCII+.

При декодуванні виконується той же самий порядок роботи з вікном, що й при кодуванні, але на відміну від пошуку підрядків, що збігаються, вони, навпаки, копіюються декодером з вікна згідно з черговою тріадою коду.

Приклад 1 (а)  Закодуємо за алгоритмом LZ77 рядок «КРАСНАЯ КРАСКА»; розмір словника 8 байтів, буфера – 5 байтів.

Кодування повідомлення подається табл. 2.13.

В останньому рядку таблиці буква «А» береться не із словника, оскільки вона остання.

Таблиця 2.13

Словник (8 Бт)      Буфер (5 Бт)          Код

 

0              1              2              3              4              5              6              7              1              2              3              4              5             

.               .               .               .               .               .               .               .               К             Р             А             С             Н             <0, 0, ‘К’>

.               .               .               .               .               .               .               К             Р             А             С             Н             А             <0, 0, ‘Р’>

.               .               .               .               .               .               К             Р             А             С             Н             А             Я             <0, 0, ‘А’>

.               .               .               .               .               К             Р             А             С             Н             А             Я                             <0, 0, ‘С’>

.               .               .               .               К             Р             А             С             Н             А             Я                             К             <0, 0, ‘Н’>

.               .               .               К             Р             А             С             Н             А             Я                             К             Р             <5, 1, ‘Я’>

.               К             Р             А             С             Н             А             Я                             К             Р             А             С             <0, 0, ‘  ’>

К             Р             А             С             Н             А             Я                             К             Р             А             С             К             <0, 4, ‘К’>

А             Я                             К             Р             А             С             К             А             .               .               .               .               <0, 0, ‘А’>

 

Довжина отриманого коду Lcode=9(3+3+8)=126 (бітів) проти LASCII+=148=112 (бітів) коду нестисненого рядка.

 

Приклад 1 (б)  Розпакуємо повідомлення, закодоване за алгоритмом LZ77, довжина словника 8 байтів. Код стисненого повідомлення: <0,0,‘K’> <0,0,‘P’> <0,0,‘A’> <0,0,‘C’> <0,0,‘H’> <5,1,‘Я’> <0,0,‘  ’> <0,4,‘K’> <0,0,‘A’>.

Розпаковування повідомлення показано у табл. 2.14.

Таблиця 2.14

Вхідний код           Вихід      Словник

                               0              1              2              3              4              5              6              7

<0, 0, ‘K’>             «К»         .               .               .               .               .               .               .               К

<0, 0, ‘P’>              «Р»         .               .               .               .               .               .               К             Р

<0, 0, ‘A’>             «А»         .               .               .               .               .               К             Р             А

<0, 0, ‘C’>             «С»         .               .               .               .               К             Р             А             С

<0, 0, ‘H’>             «Н»         .               .               .               К             Р             А             С             Н

<5, 1, ‘Я’>             «АЯ»      .               К             Р             А             С             Н             А             Я

<0, 0, ‘  ’>              «   »         К             Р             А             С             Н             А             Я            

<0, 4, ‘K’>             «КРАСК»              А             Я                             К             Р             А             С             К

<0, 0, ‘A’>             «А»         Я                             К             Р             А             С             К             А

 

                Наведемо процедури кодування та декодування за алгоритмом LZ77 .

Кодер: 

While (lookAheadBuffer not empty)

  get a pointer(position,  match) to the longest match

  in the window for the lookahead buffer;

 if (lehgth>Minimum_Match_Length)

    output a(position, length) pair;

    shift the window length characters along;

 else

    output the first character in the lookaheadbuffer;

    shift the window 1 character along.

Декодер: 

Whenever a(position, length) pair is encountered,

  go to that (position) in the window and copy     (length) bytes to the output.

Недоліки алгоритму LZ77:

1)            із збільшенням розміру словника швидкість роботи алгоритму кодера пропорційно сповільнюється;

2)            кодування поодиноких символів дуже неефективне.