W pierwszych dwóch dekadach XXI wieku dał się zaobserwować gwałtowny wzrost zapotrzebowania na analizę dużych zbiorów danych. Rozwój technologii internetowych oraz informacyjnych i komunikacyjnych w połączeniu z jakościową zmianą zachodzącą w technice, naukach ścisłych, przyrodniczych, ekonomicznych, społecznych, a także w medycynie – spowodował możliwość kolekcjonowania danych rzędu terabajtów lub nawet petabajtów na potrzeby studium pojedynczych przypadków. Takie ilości danych nie są możliwe do przeanalizowania metodami klasycznymi.
Z drugiej strony reguły oraz informacje, które mogą być w nich zawarte – gdy odpowiednio wykorzystane – w sposób istotny mogą przyczynić się do poprawy jakości życia jednostki, jednostki jako pacjenta, społeczeństwa, organizacji korporacyjnej, mogą wreszcie być kluczowe przy odkrywaniu nowych praw przyrody i struktury materii zarówno w skali mikro jak i makroświata. Wraz ze wzrostem objętości zgromadzonych danych obserwujemy rozwój nowej nauki określanej jako Data Science, a wraz z rozwojem technologicznym tworzą się możliwości ich analizy z wykorzystaniem niekonwencjonalnych metod inżynierii dużych zbiorów danych zwanych Big Data.
Adresaci studiów
Studia podyplomowe kierowane są do osób pragnących zdobyć kompetencje w analizie i przetwarzaniu dużych ilości danych na potrzeby biznesu, nauki, medycyny oraz w innych przestrzeniach aktywności z przeznaczeniem do wykorzystania w roli narzędzi wsparcia podejmowanych decyzji.
Studia są przeznaczone zarówno dla informatyków, jak i dla specjalistów z innych dziedzin, którzy chcą stosować rozwiązania szeroko rozumianej Data Science wspomagające ich codzienną pracę zawodową w szczególności przy podejmowaniu decyzji.
Idealni kandydaci to osoby posiadające podstawową wiedzę informatyczną, mające doświadczenie z narzędziami informatycznymi i zamierzające uzupełnić swoje wykształcenie o znajomość technik Big Data.
Studenci studiów podyplomowych zapoznają się z wiodącymi technologiami wykorzystywanymi w analizie dużych ilości danych, zarówno darmowymi jak i komercyjnymi implementacjami. Główny nacisk położony zostanie na otwarte technologie Apache: Cassandra, HBase, MLlib, Spark, Mahaut. Ponadto zaprezentowane zostaną możliwości chmury obliczeniowej Microsoft Azure Machine Learning a także w zarysie technologie oferowane przez platformy Google Cloud oraz Viya w ramach SAS Cloud Analytics Services. Szczególny nacisk położymy na podnoszenie kompetencji w ramach programowania w językach Python oraz R do zastosowań w analizie dużych zbiorów danych. Studenci będą ponadto poznawać teorię oraz stosować w praktyce zaawansowane algorytmy uczenia maszynowego.
Wymogi dotyczące osób chcących uczęszczać na studia podyplomowe "Big Data"
Kandydaci na studia podyplomowe powinni być absolwentami studiów I lub II stopnia kierunków informatycznych lub pokrewnych, ekonomicznych, technicznych. Rekomendowana jest podstawowa znajomość: teorii relacyjnych baz danych, metod statystycznych, programowania np. w języku Python, użytkowania systemów klasy UNIX. Wymagana znajomość języka angielskiego przynajmniej na poziomie B2.
Czas trwania studiów
Studia realizowane są w trybie zaocznym.Program studiów obejmuje dwa semestry, 210 godzin dydaktycznych, w tym 120 godzin praktycznych.
Kierownikiem Studiów jest dr hab. Grzegorz Marcin Wójcik, prof. PJATK
Kontakt: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.
Opłaty
Wpisowe (płatne dopiero po kwalifikacji na studia):
1000 PLN – dla absolwentów innych uczelni
500 PLN – dla absolwentów PJATK
Czesne:
Studia zaoczne - 5000 PLN/semestr
Zakres tematyczny
- Podstawy inżynierii dużych zbiorów danych, 10 godz.
- Infrastruktura sprzętowa w przetwarzaniu dużych zbiorów danych, 10 godz.
- Infrastruktura programowa w przetwarzaniu dużych zbiorów danych, 10 godz.
- Konfiguracja środowiska przetwarzania dużych zbiorów danych, 10 godz.
- Analiza danych w języku Python, 35 godz.
- Analiza danych w języku R, 35 godz.
- Nierelacyjne bazy danych, 35 godz.
- Metody uczenia maszynowego, 35 godz.
- Przetwarzanie dużych zbiorów danych w chmurze obliczeniowej, 20 godz.
- Projekt własny, 10 godz.
RAZEM 210 godzin
Wyjaśnienia dotyczące poszczególnych przedmiotów:
Podstawy inżynierii dużych zbiorów danych:
• Inżynieria danych
• Data Science, Big Data, Data Analysis
• Uczenie maszynowe i Deep Learning
• Algorytm MapReduce
• Model BigTable
• Rozwiązania sprzętowe
Infrastruktura sprzętowa w przetwarzaniu dużych zbiorów danych:
• Big Data na laptopie lub komputerze stacjonarnym
• Big Data na klastrze lokalnym
• Realizacje w Chmurze
• Zastosowanie procesorów graficznych
• Wykorzystanie NVIDIA Tesla Deep Learning
Infrastruktura programowa w przetwarzaniu dużych zbiorów danych:
• Rozwiązania Open Source (Apache)
• Rozwiązania komercyjne (SAS, Google, Microsoft)
• Silnik Microsoft Azure i Machine Learning Tool
• Silnik Cloud Analytics Services (CAS)
• Silnik Google Cloud Machine Learning Engine
Konfiguracja środowiska przetwarzania dużych zbiorów danych:
• Apache Cassandra
• Apache HBase
• Apache Spark
• Apache Mahaut
• Apache MLlib
• Apache Hadoop
Analiza danych w języku Python:
• Przygotowanie środowiska dla programisty (Rodeo)
• Podstawy języka Python
• Wyrażenia regularne w języku Python
• Przegląd bibliotek naukowych: NumPy, SciPy, Matplotlib
• Wizualizacja danych
• Uczenie maszynowe i Sickit Learn
Analiza danych w języku R:
• Przygotowanie środowiska programisty (RStudio)
• Podstawy języka skryptowego R
• Wizualizacja danych w R
• Obliczenia stacjonarne z wykorzystaniem R
• Obliczenia w chmurze
• Przegląd pakietów R
Nierelacyjne bazy danych:
• Koncepcja baz NoSQL
• Reprezentacje danych w bazie Cassandra
• Interfejsy do baz Cassandra i HBase
• Środowisko Apache Hadoop na potrzeby baz NoSQL
• Reprezentacje danych w bazie HBase
• Baza HBase i Hadoop
Metody uczenia maszynowego:
• Związek Big Data z uczeniem maszynowym
• Apache Spark i biblioteka MLlib
• Apache Mahaut w zadaniach klasyfikacyjnych
• Podstawowe algorytmy uczenia maszynowego
Przetwarzanie dużych zbiorów danych w chmurze obliczeniowej:
• Ekosystem Microsoft Azure
• Silnik Microsoft Azure Machine Learning
• Narzędzie Azure Machine Learning Studio
• Rozwiązanie przykładowego problemu
Projekt własny:
• Wybór problemu
• Samodzielna implementacja oraz rozwiązanie problemu
Kontakt
Centrum Kształcenia Podyplomowego
ul. Koszykowa 86
02-008 Warszawa
Budynek B, sala 17
e-mail: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.
Telefony:
(+48) 512 497 506
(+48) 22 58 44 597