A framework for analysis and quality assessment of big and linked data : doctoral dissertation
Linking and publishing data in the Linked Open Data format increases the interoperabilityand discoverability of resources over the Web. To accomplish this, the process comprisesseveral design decisions, based on the Linked Data principles that, on one hand, recommend touse standards for the representation and the access to data on the Web, and on the other handto set hyperlinks between data from different sources.Despite the efforts of the World Wide Web Consortium (W3C), being the main internationalstandards organization for the World Wide Web, there is no one tailored formula for publishingdata as Linked Data. In addition, the quality of the published Linked Open Data (LOD) is afundamental issue, and it is yet to be thoroughly managed and considered.In this doctoral thesis, the main objective is to design and implement a novel framework forselecting, analyzing, converting, interlinking, and publishing data from diverse sources,simultaneously paying great attention to quality assessment throughout all steps and modulesof the framework. The goal is to examine whether and to what extent are the Semantic Webtechnologies applicable for merging data from different sources and enabling end-users toobtain additional information that was not available in individual datasets, in addition to theintegration into the Semantic Web community space. Additionally, the Ph.D. thesis intends tovalidate the applicability of the process in the specific and demanding use case, i.e. for creatingand publishing an Arabic Linked Drug Dataset, based on open drug datasets from selectedArabic countries and to discuss the quality issues observed in the linked data life-cycle. To thatend, in this doctoral thesis, a Semantic Data Lake was established in the pharmaceutical domainthat allows further integration and developing different business services on top of theintegrated data sources. Through data representation in an open machine-readable format, theapproach offers an optimum solution for information and data dissemination for buildingdomain-specific applications, and to enrich and gain value from the original dataset. This thesisshowcases how the pharmaceutical domain benefits from the evolving research trends forbuilding competitive advantages. However, as it is elaborated in this thesis, a betterunderstanding of the specifics of the Arabic language is required to extend linked datatechnologies utilization in targeted Arabic organizations.
Electrical engineering and computer science - Software engineering / Електротехника и рачунарство - Софтверско инжењерство Datum odbrane: 11.04.2022.
Повезивање и објављивање података у формату "Повезани отворени подаци" (енг.Linked Open Data) повећава интероперабилност и могућности за претраживање ресурсапреко Web-а. Процес је заснован на Linked Data принципима (W3C, 2006) који са једнестране елаборира стандарде за представљање и приступ подацима на Wебу (RDF, OWL,SPARQL), а са друге стране, принципи сугеришу коришћење хипервеза између податакаиз различитих извора.Упркос напорима W3C конзорцијума (W3C је главна међународна организација застандарде за Web-у), не постоји јединствена формула за имплементацију процесаобјављивање података у Linked Data формату. Узимајући у обзир да је квалитетобјављених повезаних отворених података одлучујући за будући развој Web-а, у овојдокторској дисертацији, главни циљ је (1) дизајн и имплементација иновативног оквираза избор, анализу, конверзију, међусобно повезивање и објављивање података изразличитих извора и (2) анализа примена овог приступа у фармацeутском домену.Предложена докторска дисертација детаљно истражује питање квалитета великих иповезаних екосистема података (енг. Linked Data Ecosystems), узимајући у обзирмогућност поновног коришћења отворених података. Рад је мотивисан потребом да сеомогући истраживачима из арапских земаља да употребом семантичких веб технологијаповежу своје податке са отвореним подацима, као нпр. DBpedia-јом. Циљ је да се испитада ли отворени подаци из Арапских земаља омогућавају крајњим корисницима да добијудодатне информације које нису доступне у појединачним скуповима података, порединтеграције у семантички Wеб простор.Докторска дисертација предлаже методологију за развој апликације за рад саповезаним (Linked) подацима и имплементира софтверско решење које омогућујепретраживање консолидованог скупа података о лековима из изабраних арапскихземаља. Консолидовани скуп података је имплементиран у облику Семантичког језераподатака (енг. Semantic Data Lake).Ова теза показује како фармацеутска индустрија има користи од применеиновативних технологија и истраживачких трендова из области семантичкихтехнологија. Међутим, како је елаборирано у овој тези, потребно је боље разумевањеспецифичности арапског језика за имплементацију Linked Data алата и њухову применуса подацима из Арапских земаља.
srpski
2021
© All rights reserved
OSNO - Opšta sistematizacija naučnih oblasti, Softversko inženjerstvo
Повезани подаци, Отворени екосистеми, апликације за управљање медикаментима, методологија, процена квалитета, димензије квалитета, Софтвер, Апликација за медикаменте, Апликација: Арапски скуп података
OSNO - Opšta sistematizacija naučnih oblasti, Softversko inženjerstvo
Linked Data, Open data ecosystems, Drug management applications, methodology, Quality assessment, Quality dimensions, Tools, Drugs Application, Application: Arabic Datasets