Naslov (srp)

Детекција аномалија коришћењем мета података у аутоматизованим системима за машинско учење : докторска дисертација

Autor

Kotlar, Miloš, 1993-

Doprinosi

Radivojević, Zaharije, 1978-
Kvaščev, Goran, 1975-
Punt, Marija, 1978-
Vlajić, Siniša, 1968-
Cvetanović, Miloš, 1978-
Bojić, Dragan, 1967-

Opis (srp)

Генерисање велике количине података условљено развојем крајњих уређаја (енг. EdgeDevices) и интернет ствари (енг. Internet of Things) довело је до убрзаног развоја технологија иалгоритама за машинско учење који се користе у системима за анализу и обраду података. Савеликом количином података у системима за њихову анализу и обраду, заснованим наалгоритмима за машинско учење, перформансе система искључиво зависе од квалитетаподатака, одабраног модела и параметара модела. Аномалије у подацима представљајуинстанце које се разликују од дистрибуције података, утичу на квалитет података и могу да седетектују коришћењем алгоритама за машинско учење. Предлог модела и параметара моделаза детекцију аномалија искључиво зависи од експертизе креатора система или доменскогексперта. У случајевима када не постоји узорак података са обележеним аномалијама, што јечест случај у подацима из реалног света, предлог модела за детекцију аномалија нијетривијалан. Предлог модела за детекцију аномалија се може аутоматизовати, при чему такавсистем за аутоматизовано машинско учење (енг. AutoML) предлаже модел за детекцијуаномалија у подацима на основу података, мета података, одговарајуће оптимизационеметрике и претходно стеченог знања. Како би се омогућила имплементација аутоматизованогсистема за детекцију аномалија, потребно је дефинисати скуп функција за израчунавање метаподатака који ће се користити за предлагање модела за одговарајућу оптимизациону метрику.Предмет истраживања представља развој проширивог система за израчунавање метаподатака. Идеја је да се систем за израчунавање мета података заснива на функцијама којекористе доменско знање и испуњавају критичне захтеве за примену у системима зааутоматизовано машинско учење, а то су скалабилност и перформансе. Циљ истраживања једа се предложи скуп функција за израчунавање мета података који ће испуњавати критичнезахтеве за наведену примену. Како би се предложио и евалуирао скуп функција заизрачунавање мета података потребно је да се постојећа решења упореде кроз различитеаспекте комплексности. Такође, потребно је да се дизајнирају експерименти и добијурезултати који ће моћи да се користе у будућим истраживањима у области аутоматизованогмашинског учења. На основу евалуације експерименталних резултата показано је дапредложени мета подаци постижу тачност од 87% и да испуњавају критичне захтеве запримену у аутоматизованим системима за машинско учење, док постојећа решења постижутачност од 73% над целим репозиторијумом. У ситуацијама када не постоји значајна количинаскупова података предложено решење постиже и за 25% лошије перформансе. Значајистраживања представља могућност имплементације аутоматизованих система за детекцијуаномалија заснованим на предложеном скупу функција за израчунавање мета података. Услучајевима када не постоји узорак података са обележеним аномалијама, или подаци нисуприсутни, креатор података или доменски експерт ће моћи ефикасно да карактеризујеаномалије у подацима на основу доменског знања.

Opis (srp)

Техничке науке - Електротехника и рачунарство - Рачунарска техника и информатика / Technical sciences - Electrical and computer engineering - Computing and informatics Datum odbrane: 11.07.2022.

Opis (eng)

Proliferation of data and devices led to the rapid development of technology andmachine learning algorithms used in data analysis and processing systems. With a large amountof data in systems for their analysis and processing, system's performance depends solely onthe quality of the data, the selected algorithm and the algorithm's parameters. Data anomaliesare instances that differ from data distribution, affect data quality, and can be detected usingmachine learning algorithms. Selected algorithm and the parameters for anomaly detectiondepend exclusively on the expertise of the system creator or domain expert. In cases where thereis no sample data with labeled anomalies, which is often the case in real-world, choosing rightalgorithm for anomaly detection is not trivial problem. Algorithm selection for anomalydetection tasks can be automated by using automated machine learning system (AutoML) thatproposes an algortihm for detecting anomalies based on data and meta-features. A growingnumber of research papers shed light on AutoML frameworks, which are becoming a promisingsolution for building complex machine learning models without human expertise and assistance. Thekey challenge in enabling AutoML frameworks to build an efficient model for anomaly detectiontasks is to determine the best underlying model for a given task and optimization metric. The metalearning approaches based on a set of meta features that describes data properties can enable efficientmodel selection in AutoML frameworks. The existing meta-learning approaches based on statisticaland information-theoretic meta features require large amounts of data and computational resourcesto extract data properties.The subject of research within this doctoral dissertation is the development of anextensible system for extracting meta features based on domain-specific knowledge. In order toevaluate the proposed set of meta-features, the goal is to compare the existing solutions throughdifferent aspects of complexity against the proposed solution. Also, the goal is to designexperiments and get results that can be used in future research in the field of automated machinelearning in general. Based on the evaluation of experimental results, it is shown that theproposed meta features achieve accuracy of 87% and meet the critical requirements forapplication in AutoML systems, while the existing solutions achieve accuracy of 73%. In caseswhere there is no significant number of datasets available for evaluation, the proposed solutionachieves 25% worse performance compared against the existing solutions. The significance ofthe research is the possibility of implementing AutoML systems based on the proposed set ofmeta features. In cases where there is no sample data with labeled anomalies, or data is notpresent, the data creator or domain expert will be able to effectively characterize the anomaliesin the data, based on domain-specific knowledge.

Jezik

srpski

Datum

2022

Licenca

Creative Commons licenca
Ovo delo je licencirano pod uslovima licence
Creative Commons CC BY-NC-ND 3.0 AT - Creative Commons Autorstvo - Nekomercijalno - Bez prerada 3.0 Austria License.

http://creativecommons.org/licenses/by-nc-nd/3.0/at/legalcode

Predmet

OSNO - Opšta sistematizacija naučnih oblasti, Veštačka inteligencija. Robotika

anomaly detection, automl, data properties, distance functions, meta features, metalearning, transfer learning

OSNO - Opšta sistematizacija naučnih oblasti, Veštačka inteligencija. Robotika

детекција аномалија, automl, карактеристике података, функције за мерење сличности, мета подаци, мета учење, пренос знања између модела