Data Science jest coraz już od dłuższego czasu z nami, więc warto coraz więcej o tym temacie pisać. Jako dyscyplina biznesowa, data science jest przeciwieństwem sztucznej inteligencji. Jedna jest nieograniczoną dziedziną, w której kreatywność, innowacyjność i skuteczność są jedynymi ograniczeniami, a druga jest związana niezliczonymi ograniczeniami dotyczącymi inżynierii, zarządzania czy przepisów.
Prognozuje się, że do końca 2024 r. prawie 3/4 przedsiębiorstw przejdzie od pilotażu do wdrożenia sztucznej inteligencji, co spowoduje pięciokrotny wzrost strumieni danych i infrastruktur analitycznych. Modele przed koronawirusem oparte na dużej ilości danych historycznych mogą już nie być prawidłowe. Zakłócenia w sztucznej inteligencji umożliwią uczenie się algorytmów.
Deep fake wykorzystuje sztuczną inteligencję do manipulowania lub tworzenia treści, aby pokazać kogoś innego. Często jest to zdjęcie lub film przedstawiający jedną osobę zmodyfikowaną na podobieństwo innej osoby. Deep fake może być również dźwiękiem. Ta technologia może zostać wykorzystana w złośliwy sposób. Oprócz żartów i oszustw finansowych, może być również wykorzystywane do zdyskredytowania biznesmenów i polityków. Rządy zaczynają się przed tym bronić poprzez ustawodawstwo i regulacje dotyczące mediów społecznościowych. Walka z tego rodzaju oszustwami dopiero się jednak zaczyna.
Choć początkowo NLP było spopularyzowane jako podzbiór sztucznej inteligencji, szybko przekształciło się osobny proces. W 2021 r. pojawi się przetwarzanie języka naturalnego do natychmiastowego wyszukiwania informacji z repozytoriów dużych zbiorów danych. Przetwarzanie języka naturalnego ułatwi dostęp do wysokiej jakości informacji, ale może również skłonić system do przekazania im spostrzeżeń biznesowych, które będą potrzebne do dalszego rozwoju. NLP dodatkowo daje firmom dostęp do analizy nastrojów. Pozwoli im to wiedzieć, jak klienci myślą o swoich markach na znacznie głębszym poziomie.
Jednym z głównych wyzwań, które pojawiły się wraz z rozwojem dużych zbiorów danych, jest poradzenie sobie z samą ilością obecnie dostępnych danych. Zbiory danych urosły tak duże, że ich obsługa i interpretacja jest teraz dużym wyzwaniem. Rozszerzona analityka rozwiązuje ten problem, wykorzystując techniki ML i sztucznej inteligencji do automatyzacji przygotowywania, udostępniania i analizy danych, zasadniczo przekształcając większe, pozornie bezużyteczne dane w mniejsze, użyteczne zestawy danych. Rozszerzona analityka niewątpliwie zacznie wchodzić do głównego nurtu w 2021 r.
Technologia chmury staje się szybsza, inteligentniejsza i bardziej elastyczna, dlatego w tym roku wiele organizacji przenosi swoje hurtownie danych do chmury lub przechodzi na drogę hybrydową, i korzysta z połączenia chmury i magazynu lokalnego. Wcześniej hurtownie danych znajdowały się na fizycznych serwerach pamięci masowej. Teraz przynajmniej część z nich przeszła do chmury, korzystając z usług dostawców takich jak Amazon, Microsoft i Google. Bezpieczeństwo danych jest jedną z ostatnich przeszkód na drodze do przetwarzania w chmurze. Wiele organizacji nie przyjęło chmury ze względu na problemy z bezpieczeństwem, ponieważ procesy takie jak wydobywanie i analiza danych w chmurze nie mogą się odbywać, jeśli dane są zaszyfrowane. W tym momencie pojawia się szyfrowanie homomorficzne i pomaga rozwiązać ten podstawowy problem.
Dane geoprzestrzenne będą kluczem do odblokowania transformacji przedsiębiorstwa. Skupiono się na dużych zbiorach danych i rosnących ilościach danych, ale w 2021 nie zapominajmy o różnorodności danych, która wciąż rośnie jako kluczowy czynnik umożliwiający transformację biznesową. Często wynika z spojrzenia na firmę z nowej perspektywy. Wykorzystanie danych z satelitów i dronów oraz danych, które mają atrybuty geolokalizacji, staje się kluczowym elementem wyróżniającym Twoją firmę. W sprzedaży i marketingu lepsze zrozumienie sygnałów popytu dzięki informacjom z geotagami pomaga zoptymalizować ograniczone zasoby i efektywnie zwiększyć zasięg rynkowy. Coraz większy nacisk na zrównoważony rozwój pokazuje, że dane geoprzestrzenne odblokowują szereg inicjatyw dotyczących zrównoważonego rozwoju, takich jak pozyskiwanie. W przeszłości dane geoprzestrzenne były zarezerwowane dla tych, którzy byli ekspertami. W 2021 roku zdolność firmy do łączenia danych geoprzestrzennych z innymi danymi i współpracy w ramach całej firmy oraz w całym łańcuchu wartości na całym świecie okaże się kluczowym wyróżnikiem.
Na horyzoncie pojawia się rewolucja zdrowotna napędzana dużymi zbiorami danych i możemy zacząć ją widzieć w akcji już w 2021 roku. Chociaż technologia zdrowotna wciąż się rozwija, rok 2020 a w szczególności pandemia COVID-19, uwydatniły potrzebę przyjęcia innego podejścia do rozwiązywania problemów zdrowotnych. Big data jest coraz częściej wykorzystywana do poszukiwania rozwiązań problemów zdrowotnych i zaczynamy widzieć rezultaty tych wysiłków. Dzięki programowi AlphaFold udało się rozwiązać jedno z największych wyzwań biologicznych. Z powodzeniem określił trójwymiarowe kształty białek na podstawie ich sekwencji aminokwasów. AlphaFold firmy Deepmind była w stanie rozwiązać ten problem kilkadziesiąt lat przed planowanym terminem dzięki Big Data. Implikacja jest przełomem w medycynie, który może przynieść przełomowe rozwiązania dotyczące sposobu wytwarzania leków i prawdopodobnie doprowadzić do rozwiązania problemu raka, demencji, chorób zakaźnych i nie tylko.
Pomiędzy nowymi narzędziami, wiedzą i celami wymienionymi powyżej, jest wiele do nauczenia się o trendach w data science w 2021 roku. Aby osiągnąć postęp, pomocne będzie dalsze kształcenie i szkolenie. Nauka o danych będzie coraz bardziej priorytetowo traktować integrację całego spektrum danych i metod sztucznej inteligencji, w tym aspektów swojej bazy statystycznej i wiedzy, w codziennych wdrożeniach w całym przedsiębiorstwie. Wykorzystanie pełnego zakresu technik i informacji, którymi dysponują naukowcy zajmujący się danymi, znacznie poprawi generowanie cech oraz przygotowanie danych.
W dzisiejszych czasach koronawirusa, ciężko jest cokolwiek przewidzieć, jednak zakładamy, że rozwój branży data science będzie miał dużo wspólnego właśnie z COVID-19.