Szkoła Doktorska Nauk Ścisłych i Przyrodniczych - Uniwersytet Jagielloński

Doktorat wdrożeniowy II – sztuczna inteligencja; Szkoła Doktorska Nauk Ścisłych i Przyrodniczych UJ, 2020, cz. 2

Informacja o dofinansowaniu ze środków budżetu państwa lub państwowego funduszu celowego
Projekt finansowany ze środków budżetu państwa.

Nazwa programu lub funduszu
„DOKTORAT WDROŻENIOWY II - SZTUCZNA INTELIGENCJA”

Nazwa projektu
Doktorat wdrożeniowy II – sztuczna inteligencja Szkoły Doktorskiej Nauk Ścisłych i Przyrodniczych UJ, 2020

Kierownik projektu
dr hab. Adam Roman, prof. UJ

Wartość dofinansowania
309 522,34 PLN

Całkowity koszt inwestycji
309 522,34 PLN

Krótki opis projektu

Celem rozprawy doktorskiej jest opracowanie metod pozwalających na efektywne zarządzanie hurtownią danych, wspomaganie w utrzymaniu (np. obniżenie kosztów) i rozwijaniu kodu oraz lepsze zrozumienie całego ekosystemu procedur.

Planowana tematyka i szczegółowy plan rozprawy.

Tematyka rozprawy doktorskiej wpisuje się zatem bardzo dobrze w obszar informatyki teoretycznej (wykorzystanie teorii złożoności i metod optymalizacji w celu zaprojektowania nowych metod optymalizacji / kontroli procesów ETL-iwych, badanie ich złożoności obliczeniowej) jak i informatyki technicznej (wykorzystanie narzędzi z zakresu teorii grafów i sztucznej inteligencji w celu dostarczenia funkcjonalnego rozwiązania)

Poniżej przedstawiono szczegółowy plan rozprawy. Każde zadania zostanie poprzedzone przeprowadzeniem przez doktoranta badań literaturowych dotyczących najnowszych wyników w zakresie optymalizacji procesów ETL i nauczania maszynowego, a także klasycznych metod z zakresu teorii grafów i teorii złożoności obliczeniowej.

Szczegółowy plan rozprawy doktorskiej:

Opracowanie matematycznego modelu grafu obliczeniowego reprezentującego typ procesów biznesowych używanych w sektorze bankowym oraz zbadanie klasy złożoności problemu izomorfizmu dla tej klasy grafów
Opracowanie efektywnej metody znajdującej różnice między dwoma procedurami przy użyciu metod optymalizacyjnych oraz grafowych sieci neuronowych
Opracowanie metod wskazujących możliwą redukcję powtarzającego się kodu poprzez analizę grafu obliczeniowego (reprezentującego proces ETL-owy), przy użyciu technik głębokiego uczenia maszynowego i zanurzeń grafów (tzw. graph embedding), oraz użycie odpowiednich miar podobieństw
Opracowanie metody znajdującej potencjalne błędy, nieefektywny kod i sugerującej proponowane rozwiązania przy użyciu technik uczenia maszynowego, wykrywania anomalii i dopasowywania wzorców (tzw. pattern matching).
Badanie ontologii nazewnictwa w bazie danych dla danego obszaru biznesowego przy użyciu technik uczenia maszynowego i przetwarzania języka naturalnego.

Metodologia badań.

Problem badania równoważności dwóch procesów ETL-wych sprowadzony zostanie do problemu izomorfizmu grafów dla pewnej szczególnej klasy grafów. Zadania 1. i 2. szczegółowego planu opisane powyżej mają za zadanie określić, czy model procesów, który rzeczywiście odzwierciedla typ procesów ETL-owych używanych przez firmy do działalności operacyjnej posiada jakieś cechy, które ułatwiłyby rozwiązanie problemu izomorfizmu lub określić, jakie dodatkowe założenia dla tego modelu zawęziłyby klasę rozważanych grafów do takiej, dla której problem izomorfizmu dałoby się rozwiązać np. w czasie wielomianowym.

Na potrzeby rozwiązania zadania 2. zaproponowane zostaną metryki odległości, wyrażające różnice strukturalne i semantyczne w porównywanych ze sobą procesach. Metryki będą musiały być tak skonstruowane, aby odzwierciedlać różnicę między dwoma procesami ETL nie tylko z czysto strukturalnego, ale przede wszystkim z biznesowego punktu widzenia.

Zadania 3. i 4. będą wykorzystywały narzędzia nauczania maszynowego, w szczególności sieci neuronowe, dla których wejściem są grafy. Obecnie można zaobserwować w literaturze wiele prac poświęconych tzw. graph-embeddingowi na potrzeby reprezentacji struktury grafowej jako wejście dla sieci neuronowej. Badania w tym obszarze będą dotyczyły sposobu zanurzania grafów w innych, "wygodnych" reprezentacyjnie strukturach (np. przestrzeniach wektorowych) z uwzględnieniem specyfiki procesów ETL, w szczególności - z uwzględnieniem informacji semantycznej.

W pracach nad zadaniem 5. wykorzystane zostaną metody i techniki NLP (przetwarzania języka naturalnego), wraz z narzędziami nauczania maszynowego (np. podejścia typu bag of words).

Harmonogram realizacji działalności naukowej