Dask to biblioteka Pythona typu open source do obliczeń rozproszonych, która pozwala użytkownikom skalować obliczenia w celu uzyskania lepszej wydajności i skalowalności. Po raz pierwszy została wydana w sierpniu 2016 roku i jest utrzymywana przez wielu deweloperów w ramach społeczności.
Dask został zaprojektowany do pracy z istniejącymi narzędziami Pythona, takimi jak NumPy, pandas i scikit-learn, dzięki czemu jest wszechstronnym narzędziem dla naukowców zajmujących się danymi, inżynierów i badaczy. Jest używany do analizy danych, uczenia maszynowego, głębokiego uczenia i analizy grafów.
Dask składa się z dwóch komponentów: harmonogramu i pracowników. Program planujący jest odpowiedzialny za podział zadania pomiędzy wielu pracowników i monitorowanie postępów każdego z nich w procesie. Po zakończeniu pracy przez pracowników, scheduler dostarcza dane wyjściowe, które mogą zostać przekazane do następnego zadania.
Dask może być używany w różnych kontekstach, na przykład na laptopach z kilkoma pracownikami lub w klastrach komputerów w centrum danych. Jest zoptymalizowany pod kątem efektywnego wykorzystania dostępnych zasobów poprzez równoległe wykonywanie tych samych obliczeń na wielu maszynach.
Dask posiada biblioteki do strumieniowego przesyłania danych i rozszerzoną obsługę innych bibliotek do analizy danych, takich jak Xarray, Scikit-Learn i TensorFlow. Ma również możliwość wykonywania obliczeń na rozproszonych systemach plików, takich jak HDFS i Amazon S3.
Ogólnie rzecz biorąc, Dask jest potężną biblioteką do obliczeń rozproszonych i jest wykorzystywany w wielu różnych obszarach zastosowań. Jest wysoce skalowalna i zapewnia elastyczność umożliwiającą wydajne wykonywanie zadań, nawet gdy maszyny są dodawane lub usuwane z klastra. Jest to świetne narzędzie dla analityków danych, inżynierów i badaczy, którzy muszą pracować z dużymi zbiorami danych.