LZW komprese
Základní informace
- slovníková kompresní metoda
- jednoprůchodová kompresní metoda
- adaptivní kompresní metoda
- symetrická kompresní metoda
- rozšíření metody LZ-78 - výstupem pouze indexy do slovníku
- rychle rostoucí počet frází ve slovníku
- použití v compress, GIF, TIFF, V.42bis, PDF, PS, ZIP
Historie
LZW (Lempel-Ziv-Welch) je univerzální bezztrátový kompresní algoritmus vytvořený Abrahamem Lempelem, Jacobem Zivem a Terrym Welchem. Publikován byl Welchem v roce 1984 jako vylepšená implementace algoritmu LZ78. Algoritmus je navržen tak, aby byl rychlý na implementaci, ale ne nutně optimální, protože neprovádí žádnou analýzu komprimovaných dat. Běžný anglický text dokáže zakomprimovat typicky zhruba na polovinu původní délky.
Použití
Metoda se stala široce používanou v programu compress, který se stal více-méně standardním komprimačním nástrojem v Unixových systémech kolem roku 1986. Opravdu masové využití zažila ale později, po roce 1987, kdy byla nasazena jako součást grafického formátu GIF. Může být také (nepovinně) použita v obrázcích formátu TIFF. Používá ji i modemová komprese u V.42bis. Metoda LZW nabízela ve své době ve většině aplikací lepší kompresní poměr než ostatní do té doby dobře známé algoritmy. Stala se první široce používanou univerzální kompresní metodou na počítačích.
Popis
Slovníková LZW metoda je založena na následující velmi jednoduché strategii. Algoritmus postupně rozpoznává a ukládá do tabulky řetězce znaků a tyto řetězce nahrazuje ve výstupním textu přirozenými čísly z předem definovaného intervalu. Tento interval určuje výslednou abecedu a platí pro něj, že například při kódování řetězce znaků zobrazených v osmibitovém zobrazení je prvních 255 čísel vyhrazeno pro zobrazení samostatných znaků z původní abecedy. Čísla nad 255 se pak přidělují jednotlivým nalezeným řetězcům. Přitom se vytváří tabulka (slovník) již rozeznaných řetězců.
Dekompresnímu algoritmu stačí pouze zkomprimovaný řetězec, protože je schopen si z něj překladovou tabulku sestavit behem dekomprese. Nicméně může nastat případ, kdy řetězec na vstupu má podobu znak/řetězec/znak/řetězec/znak (kde znak je nějaký stejný znak a řetězec je nějaký stejný řetězec) a v překladové tabulce již máme uložen řetězec znak/řetězec. Jakmile dekompresní algoritmus načte znak/řetězec/znak, nemůže tento řetězec najít v tabulce. Nicméně tento stav je řešitelný, protože nově načtený znak je shodný s minule načteným znakem.
Pseudokód
1: begin
2: while (not EOF(vstupní_soubor)) do
3: begin
4: readSymbol(znak)
5: if ((řetězec+znak) in tabulka_řetězců) then
6: řetězec += znak
7: else
8: begin
9: output(číslo(řetězec, tabulka_řetězců))
10: ADD(řetězec, tabulka_řetězců)
11: řetězec := znak
12: end
13: end
14: end
Odkazy
- LZW. Wikipedia, the free encyclopedia.
- Mark Nelson: LZW Data Compression.
- Interaktivní LZW komprese
- Martin Kopka: Slovníková komprese (LZW).
- Terry Welch: A Technique for High-Performance Data Compression. Computer, June 1984.
- Michael Dipperstein: Lempel-Ziv-Welch (LZW) Encoding Discussion and Implementation.