Dask je open source knihovna Pythonu pro distribuované výpočty, která uživatelům umožňuje škálovat své výpočty pro lepší výkon a škálovatelnost. Poprvé byl vydán v srpnu 2016 a je udržován mnoha vývojáři v rámci komunity.
Dask je navržen tak, aby spolupracoval se stávajícími nástroji Pythonu, jako je NumPy, pandas a scikit-learn, což z něj činí všestranný nástroj pro datové vědce, inženýry a výzkumníky. Používá se pro analýzu dat, strojové učení, hluboké učení a analýzu grafů.
Dask se skládá ze dvou složek: plánovače a pracovníků. Plánovač je zodpovědný za rozdělení úkolu mezi mnoho pracovníků a sledování postupu každého pracovníka v procesu. Když jsou pracovníci hotovi, plánovač poskytne výstup, který lze předat dalšímu úkolu.
Dask lze použít v různých kontextech, například na přenosných počítačích s pouze několika pracovníky nebo ve skupinách počítačů v datovém centru. Je optimalizován tak, aby efektivně využíval dostupné zdroje tím, že spouští stejný výpočet paralelně na více strojích.
Dask má knihovny pro streamování dat a rozšířenou podporu pro další knihovny pro analýzu dat, jako jsou Xarray, Scikit-Learn a TensorFlow. Má také schopnost spouštět výpočty na distribuovaných souborových systémech, jako je HDFS a Amazon S3.
Celkově je Dask výkonná knihovna pro distribuované výpočty a používá se v celé řadě oblastí aplikací. Je vysoce škálovatelný a poskytuje flexibilitu pro efektivní spouštění úloh, i když jsou počítače přidány nebo odebrány z clusteru. Je to skvělý nástroj pro datové vědce, inženýry a výzkumníky, kteří potřebují pracovat s rozsáhlými datovými sadami.