Big Data – Inżynieria dużych zbiorów danych

Big Data – Inżynieria dużych zbiorów danych

UWAGA: Planowane jest uruchomienie  dwóch grupy w Potoku I - pierwszy zjazd 30 września - 1 października. Pełen terminarz zjazdów dostępny jest na: http://www.pja.edu.pl/rozklad-roku

Z drugiej strony reguły oraz informacje, które mogą być w nich zawarte – gdy odpowiednio wykorzystane – w sposób istotny mogą przyczynić się do poprawy jakości życia jednostki, jednostki jako pacjenta, społeczeństwa, organizacji korporacyjnej, mogą wreszcie być kluczowe przy odkrywaniu nowych praw przyrody i struktury materii zarówno w skali mikro jak i makroświata. Wraz ze wzrostem objętości zgromadzonych danych obserwujemy rozwój nowej nauki określanej jako Data Science, a wraz z rozwojem technologicznym tworzą się możliwości ich analizy z wykorzystaniem niekonwencjonalnych metod inżynierii dużych zbiorów danych zwanych Big Data.

 

Adresaci studiów

Studia podyplomowe kierowane są do osób pragnących zdobyć kompetencje w analizie i przetwarzaniu dużych ilości danych na potrzeby biznesu, nauki, medycyny oraz w innych przestrzeniach aktywności z przeznaczeniem do wykorzystania w roli narzędzi wsparcia podejmowanych decyzji.

Studia są przeznaczone zarówno dla informatyków, jak i dla specjalistów z innych dziedzin, którzy chcą stosować rozwiązania szeroko rozumianej Data Science wspomagające ich codzienną pracę zawodową w szczególności przy podejmowaniu decyzji.

Idealni kandydaci to osoby posiadające podstawową wiedzę informatyczną, mające doświadczenie z narzędziami informatycznymi i zamierzające uzupełnić swoje wykształcenie o znajomość technik Big Data.

Studenci studiów podyplomowych zapoznają się z wiodącymi technologiami wykorzystywanymi w analizie dużych ilości danych, zarówno darmowymi jak i komercyjnymi implementacjami. Główny nacisk położony zostanie na otwarte technologie Apache: Cassandra, HBase, MLlib, Spark, Mahaut. Ponadto zaprezentowane zostaną możliwości chmury obliczeniowej Microsoft Azure Machine Learning a także w zarysie technologie oferowane przez platformy Google Cloud oraz Viya w ramach SAS Cloud Analytics Services. Szczególny nacisk położymy na podnoszenie kompetencji w ramach programowania w językach Python oraz R do zastosowań w analizie dużych zbiorów danych. Studenci będą ponadto poznawać teorię oraz stosować w praktyce zaawansowane algorytmy uczenia maszynowego.

 

Wymogi dotyczące osób chcących uczęszczać na studia podyplomowe "Big Data"

Kandydaci na studia podyplomowe powinni być absolwentami studiów I lub II stopnia kierunków informatycznych lub pokrewnych, ekonomicznych, technicznych. Wymagana jest podstawowa znajomość: teorii relacyjnych baz danych, metod statystycznych, programowania w języku Python, użytkowania systemów klasy UNIX. Mile widziana znajomość języka programowania JAVA. Wymagana znajomość języka angielskiego przynajmniej na poziomie B2.

Czas trwania studiów

Studia realizowane w dwóch trybach: zaocznym oraz wieczorowym.

Program studiów obejmuje dwa semestry, 210 godzin dydaktycznych, w tym 120 godzin praktycznych.

Kierownikiem Studiów jest dr hab. Grzegorz Marcin Wójcik, prof. PJATK - Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.

 

Opłaty

Wpisowe (płatne dopiero po kwalifikacji na studia):

1000 PLN – dla absolwentów innych uczelni
500 PLN – dla absolwentów PJATK

Czesne:

Studia zaoczne - 3200 PLN/semestr

Zakres tematyczny

  1. Podstawy inżynierii danych Big Data, 10 godz.
  2. Infrastruktura hardwarowa Big Data - przegląd, 10 godz.
  3. Infrastruktura softwarowa Big Data  - przegląd, 10 godz.
  4. Konfiguracja środowiska do analizy Big Data w technologii Open Source, 10 godz.
  5. Programowanie rozwiązań dla Big Data w języku Python, 35 godz.
  6. Analiza danych w R, 35 godz.
  7. Bazy danych NoSQL, 35 godz.
  8. Uczenie maszynowe – zastosowanie w Big Data, 35 godz.
  9. Uczenie maszynowe w chmurze Microsoft, 20 godz.
  10. Projekt własny, 10 godz.

RAZEM 210 godzin


Wyjaśnienia dotyczące poszczególnych przedmiotów:

Podstawy inżynierii danych Big Data:

• Inżynieria danych
• Data Science, Big Data, Data Analysis
• Uczenie maszynowe i Deep Learning
• Algorytm MapReduce
• Model BigTable
• Rozwiązania sprzętowe


Infrastruktura hardwarowa Big Data – przegląd:

• Big Data na laptopie lub komputerze stacjonarnym
• Big Data na klastrze lokalnym
• Realizacje w Chmurze
• Zastosowanie procesorów graficznych
• Wykorzystanie NVIDIA Tesla Deep Learning

 

Infrastruktura softwarowa Big Data – przegląd:

• Rozwiązania Open Source (Apache)
• Rozwiązania komercyjne (SAS, Google, Microsoft)
• Silnik Microsoft Azure i Machine Learning Tool
• Silnik Cloud Analytics Services (CAS)
• Silnik Google Cloud Machine Learning Engine

 

Konfiguracja środowiska do analizy Big Data w technologii Open Source:

• Apache Cassandra
• Apache HBase
• Apache Spark
• Apache Mahaut
• Apache MLlib
• Apache Hadoop

 

Programowanie rozwiązań dla Big Data w języku Python:

• Przygotowanie środowiska dla programisty (Rodeo)
• Podstawy języka Python
• Wyrażenia regularne w języku Python
• Przegląd bibliotek naukowych: NumPy, SciPy, Matplotlib
• Wizualizacja danych
• Uczenie maszynowe i Sickit Learn

 

Analiza danych w R:

• Przygotowanie środowiska programisty (RStudio)
• Podstawy języka skryptowego R
• Wizualizacja danych w R
• Obliczenia stacjonarne z wykorzystaniem R
• Obliczenia w chmurze
• Przegląd pakietów R

 

Bazy danych NoSQL:

• Koncepcja baz NoSQL
• Reprezentacje danych w bazie Cassandra
• Interfejsy do baz Cassandra i HBase
• Środowisko Apache Hadoop na potrzeby baz NoSQL
• Reprezentacje danych w bazie HBase
• Baza HBase i Hadoop

 

Uczenie maszynowe – zastosowanie w Big Data:

• Związek Big Data z uczeniem maszynowym
• Apache Spark i biblioteka MLlib
• Apache Mahaut w zadaniach klasyfikacyjnych
• Podstawowe algorytmy uczenia maszynowego

 

Uczenie maszynowe w chmurze Microsoft:

• Ekosystem Microsoft Azure
• Silnik Microsoft Azure Machine Learning
• Narzędzie Azure Machine Learning Studio
• Rozwiązanie przykładowego problemu


Projekt własny:

• Wybór problemu
• Samodzielna implementacja oraz rozwiązanie problemu