diff --git a/czi-format/benchmark_results/artemia_at_z_sect/artemia_at_1ch_z_sect_continuous.csv b/czi-format/benchmark_results/artemia_at_z_sect/artemia_at_1ch_z_sect_continuous.csv index 21d5a4b7e04129fed5c05d0f93af172e6b59eb55..ebdb9448a46ae7450e0bf094ef6b23c5e82e9e76 100644 --- a/czi-format/benchmark_results/artemia_at_z_sect/artemia_at_1ch_z_sect_continuous.csv +++ b/czi-format/benchmark_results/artemia_at_z_sect/artemia_at_1ch_z_sect_continuous.csv @@ -25,4 +25,4 @@ AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;LZMA2;8;112594560;32030796;314 AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;BZIP2;8;112594560;31027021;31080831;3.62892;3.62264;17565.00000;17347.00000 AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;GZIP;9;112594560;41693860;39222947;2.70051;2.87063;260602.00000;334742.00000 AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;LZMA2;9;112594560;31991164;31405776;3.51955;3.58515;239581.00000;186695.00000 -AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;BZIP2;9;112594560;31016055;31077959;3.63020;3.62297;12849.00000;12832.00000 +AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;BZIP2;9;112594560;31016055;31077959;3.63020;3.62297;12849.00000;12832.00000 \ No newline at end of file diff --git a/czi-format/benchmark_results/artemia_at_z_sect/cont2.csv b/czi-format/benchmark_results/artemia_at_z_sect/cont2.csv deleted file mode 100644 index fd2f80b7b97395713a00a26683e5a8112da318d3..0000000000000000000000000000000000000000 --- a/czi-format/benchmark_results/artemia_at_z_sect/cont2.csv +++ /dev/null @@ -1,4 +0,0 @@ -filename;subblock;pixel;width;height;compression;level;originalSize;compressedSize;compressedZ;compressionRatio;compressionRatioZ;compressionTime;compressionTimeZ -AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;GZIP;9;112594560;41693860;39222947;2.70051;2.87063;117712.00000;161881.00000 -AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;LZMA2;9;112594560;31991164;31405776;3.51955;3.58515;205168.00000;199336.00000 -AxioZoom_Artemia_AT-1Ch-Z_sect.czi;999;Gray16;0;0;BZIP2;9;112594560;31016055;31077959;3.63020;3.62297;9036.00000;8966.00000 diff --git a/czi-format/benchmark_results/results.xlsx b/czi-format/benchmark_results/results.xlsx new file mode 100644 index 0000000000000000000000000000000000000000..7b2aa545f136e6514cca24513055857dd71cf576 Binary files /dev/null and b/czi-format/benchmark_results/results.xlsx differ diff --git a/document/citations.bib b/document/citations.bib index 901d687e0fd3aba9633b5111ade226f2f264be2a..22462867dfb70ed3dd0484b07f79e4dc20f8fd35 100644 --- a/document/citations.bib +++ b/document/citations.bib @@ -23,4 +23,42 @@ title = {Open Microscopy Environment}, howpublished = {\url{https://www.openmicroscopy.org/}}, note = {Dne: 23.01.2019} +} + +@manual{gzip, + organization = "Aladdin Enterprises", + title = "GZIP file format specification version 4.3", + year = 1996, + month = {May}, + number = "rfc1952" +} + +@manual{deflate_spec, + organization = "Aladdin Enterprises", + title = "DEFLATE Compressed Data Format Specification version 1.3", + year = 1996, + month = {May}, + number = "rfc1951" +} + +@ARTICLE{LZ77, + author={J. {Ziv} and A. {Lempel}}, + journal={IEEE Transactions on Information Theory}, + title={A universal algorithm for sequential data compression}, + year={1977}, + volume={23}, + number={3}, + pages={337-343}, + keywords={Sequential coding;Source coding}, + doi={10.1109/TIT.1977.1055714}, + ISSN={0018-9448}, + month={May}, +} + +@manual{block_sorting, + organization = "Systems Research Center", + title = "A Block-sorting Lossless Data Compression Algorithm", + year = 1994, + month = {May}, + number = "SRC-RR-124" } \ No newline at end of file diff --git a/document/document.pdf b/document/document.pdf index 596f3f9119360b34ed233a448f34cbdf2c214a62..d7c7f0c4d18cb806dca470222bcb0c8b1814cf3a 100644 Binary files a/document/document.pdf and b/document/document.pdf differ diff --git a/document/document.tex b/document/document.tex index 900b016e35516469f4dad7af2661a3938028d7a0..c6977c417a04f9fae53b8b663e6558fd1d8b93f0 100644 --- a/document/document.tex +++ b/document/document.tex @@ -22,12 +22,16 @@ \newcommand{\bThreed}{B$^3$D } \author{Moravec VojtÄ›ch} -\title{SemestrálnĂ projekt} +\title{Metody komprese bioinformatickĂ˝ch dat pro pĹ™enos na HPC infrastrukturu} \date{2018/2019} \begin{document} -%\maketitle -%\newpage +\maketitle +\newpage + +\section{Ăšvod} +\textit{TODO} +\newpage \section{ZISRAW (CZI) formát} @@ -105,7 +109,30 @@ LZW, JPEG a JPEG-XR. Všechny tyto komprese jsou specifikacĂ omezeny na 2D obra širokopásmovou mikroskopii. JPEG je ztrátová komprese a JPEG-XR je modernÄ›jšà variantou JPEG, která nabĂzĂ lepšà kompresnĂ pomÄ›ry a takĂ© bezztrátovou kompresi. \newpage -\section{KompresnĂ knihovna \bThreed} +\section{KompresnĂ metody} +V tĂ©to sekci si popĂšeme kompresnĂ metody, kterĂ© jsme vyzkoušeli na bioinformatickĂ˝ch datech. +Nejprve uvedeme 3 metody, kterĂ© se pouĹľĂvajĂ pro bezztrátovou kompresi dat všech druhĹŻ. Tyto 3 metody se stali \emph{de facto} standardem +pro bezztrátovou kompresi. NáslednÄ› popĂšeme kompresi \bThreed, která se pĹ™Ămo zaměřuje na kompresi obrazĹŻ, zĂskanĂ˝ch z +mikroskopĹŻ. + +\subsection{StandartnĂ metody} + +StandartnĂ metody, kterĂ© zde uvedeme, jsou hojnÄ› vyuĹľĂvány v nejrozšĂĹ™eněšjšĂch programech zabĂ˝vajĂcĂ se bezztrátovou kompresĂ. Tyto metody jsou navrĹľeny tak, +aby byly nezávislĂ© na typy procesoru, operaÄŤnĂm systĂ©mu nebo souborovĂ©m systĂ©mu. Tato nezávislost dovoluje pĹ™enesitelnost mezi rĹŻznĂ˝mi stroji. + +Soubory jsou komprimacĂ pĹ™evádÄ›ny do jinĂ˝ch formátĹŻ, zaobalujĂcĂ komprimovaná data. PĹ™Ăkladem mĹŻĹľe bĂ˝t jeden z jednoduššĂch formátĹŻ a to \emph{gzip} \cite{gzip}, +pouĹľĂvá se napĹ™Ăklad i pro HTTP kompresi. Tento formát vyuĹľĂvá zĹ™ejmÄ› nejrozšĂĹ™eněšjšà +metodu komprese DEFLATE \cite{deflate_spec}. DEFLATE kombinuje algoritmus LZ77 \cite{LZ77} and Huffmanovo kĂłdovánĂ. +DEFLATE je nejpouĹľivanÄ›jšĂm typem komprese v \emph{zip} souborech. + +LZMA algoritmus kombinuje vĂce druhĹŻ algoritmĹŻ, LZ77 \cite{LZ77}, aritmetickĂ© kĂłdovánĂ a vyuĹľĂvá Markuv model predikce. Tento algoritmus se vyuĹľĂvá v programu +\emph{7-Zip}. + +TĹ™etĂ algoritmem je bzip2, stejnÄ› jako LZMA vyuĹľĂvá vĂce metod, Run-Length kĂłdovánĂ, Huffmanovo kĂłdovánĂ a Block-Sorting kompresi \cite{block_sorting}. + +Z tÄ›chto třà uvedenĂ˝ch, slibuje LZMA nejvÄ›tšà kompresnĂ pomÄ›r. + +\subsection{Komprese obrazĹŻ z mikroskopu, knihovna \bThreed} Tato sekce vycházĂ z \cite{Balazs164624}, taktéž grafy jsou pĹ™ebrány z tĂ©to práce. \bThreed je Open Source knihovna, Ĺ™ešĂcĂ problĂ©m komprese obrazĹŻ z mikroskopu. Je napsána v jazyce C++ a vyuĹľĂvá CUDA architekturu. Slibovaná rychlost komprese je vĂce neĹľ 1 GB/s. Tato knihovna nabĂzĂ jak ztrátovou tak i bezztrátovou kompresi, kde ztrátová zohledĹuje fakt,