Naslov (srp)

Методологија пројектовања система за интелигентно прослеђивање питања написаних на природном језику : докторска дисертација

Autor

Furlan, Bojan. 1982-

Doprinosi

Nikolić, Boško. 1972-
Milutinović, Veljko, 1951-
Mitić, Nenad, 1959-
Milićev, Dragan, 1968-
Cvetanović, Miloš, 1978-

Opis (eng)

In spite of great developments in artificial intelligence, human brain is still more powerful, concerning the comprehension and manipulation with partially known facts. One domain where this is prominent is related to a problem of question answering. When it comes to giving the answers, especially those that do not explicitly exist in the text corpus, the advantages of a human expert are abilities like explaining, combining complex answers, and abstract reasoning. Intelligent Question Routing Systems (IQRS) serve as a knowledge exchange medium in an arbitrary field of expertise, where intensive communication between users is required. The benefit coming from deployment of such systems includes: (a) reducing unnecessary “pinging” of experts, which are a valuable resource and (b) increasing the system owners’ (e.g. enterprise, government, university) quality of service, since users are more satisfied with answers, because their questions are answered by the right persons. This dissertation represents a methodology for IQRS systems design. It starts with a survey of the existing research in this domain, where the emphasis was put on the implementation of phases of the IQRS process. The survey also introduces an original presentation paradigm that generalizes the essence of approaches found in the open literature. The presentation paradigm includes three basic processing stages related to the three major problems of system implementation: question analysis, question forwarding, and users’ knowledge profiling. The outcome of this analysis is a proposal for a new approach that tackles identified problems. The rest of the dissertation describes an IQRS prototype which implements the proposed ideas. The question analysis module implements an approach that enables question visualization, thus it provides an intuitive representation of specific relations between concepts and their importance in the question. Also, this approach combines a fully automatic text processing and manual correction of the results, giving a users ability to increase the accuracy of the output. Simultaneously, the implemented text processing module is used for the analysis of answers. Next, an analysis and discussion of existing approaches for determining the semantic similarity of two short texts is given, where particularly the focus was put on those suitable for languages with very limited electronic linguistic resources, like the Serbian language. Based on the conclusions a new algorithm is proposed, named LInSTSS, which for calculating the semantic similarity between two short texts includes the specificity of words that these texts contain. Additionally, a Serbian paraphrase corpus is constructed and the results obtained using this corpus showed that the proposed algorithm provides better results when compared to existing solutions. Finally, evaluation on paraphrase corpora both for English and Serbian is used to fine-tune algorithm parameters. Also, the lessons learned are applied to design the module for calculating the semantic similarity between a question and a user profile. In the question forwarding phase issues related to the problem of comparing questions and user profiles are discussed and a new algorithm called P2Q is proposed. This algorithm determines the highest (maximum) similarity between the concepts identified in question and those from the user profile. Finally, the analysis of available web portals is carried in order to find the one suitable for the creation of a questions and answers corpus. In the created corpus three different types of users are extracted, which model: (1) interests, (2) knowledge, and (3) both knowledge and interests. Corpus is then used to test the initial hypothesis and to evaluate the overall system performances. The results showed that P2Q approach provides significantly better results than other evaluated approaches. It was also noted that the use of semantic information extraction from text can improve results. Scientific contribution of the dissertation is in the field of analysis and synthesis of a software system, which should enable an intelligent questions routing. Also, based on the evaluation results it was found that properly assigned weights can improve the overall performances of the system, but also if not assigned correctly performances can be significantly decreased. Finally, it was concluded that for profiling the user competence to give an answer for the provided question it is important not only to consider answers which the user best answered, i.e. to profile knowledge, but also it is important to consider questions which can express interests.

Opis (srp)

Упркос великом развоју вештачке интелигенције, људски мозак је још увек супериорнији узимајући у обзир разумевање и манипулацију делимично познатим чињеницама. Једна од области у којој је ово нарочито истакнуто односи се на проблем одговарања на питања. Када је потребно дати одговор, посебно онај који се експлицитно не налази у тексту корпуса који се претражује, предности експерта – човека представљају различите способности као што је способност објашњавања, комбиновања сложених одговора и апстрактног резоновања. Системи за Интелигентно Прослеђивање Питања (СИПП) имају за сврху размену знања на нивоу произвољне области експертизе и од значаја су за велики број апликација у којима се захтева интензивна комуникација између корисника. Корист од примене оваквих система укључује: (а) смањење непотребног оптерећења експерата који представљају вредан ресурс и (б) повећање квалитета услуга институције (универзитет, влада, предузеће), имајући у виду задовољство корисника с обзиром да су њихова питања прослеђена релевантним особама. У овом раду представљена је методологија пројектовања система за интелигентно прослеђивање питања написаних на природном језику – СИПП. На почетку је дат детаљан преглед ове области где је посебан акценат стављен на реализацију фаза СИПП процеса. Такође, у овом поглављу представљена је оригинална презентациона парадигма која генерализује суштину свих расположивих СИПП решења из отворене литературе. Презентациона парадигма садржи три основне фазе извршавања које се односе на три главна проблема приликом реализације система: анализу питања, прослеђивање питања и профилисање корисничког знања. На основу ове парадигме извршена је детаљна анализа и евалуација оваквих система, а као закључак наведен је предлог решења уочених проблема. У наставку дисертације описана је реализација предложених решења у виду прототипа СИПП система. У оквиру модула за обраду питања реализован је приступ који омогућава визуализацију питања, што обезбеђује интуитивну представу специфичних односа између концепата, као и њиховог значаја у питању. Такође, овај приступ комбинује потпуно аутоматску обраду текста и ручну корекцију резултата, пружајући кориснику могућност повећања тачности излаза. Истовремено, реализовани модул за обраду текста употребљен је и за анализу одговора. Након тога анализирани су и дискутовани постојећи приступи за одређивање семантичке сличности два кратка текста, погодни за језике са врло ограниченим електронским лингвистичким ресурсима, где је посебан акценат стављен на српски језик. На основу донетих закључака предложен је нови алгоритам, назван LInSTSS, који приликом одређивања семантичке сличности два кратка текста узима у обзир и специфичности речи које ови текстови садрже. Такође, реализован је корпус парафраза за српски језик над којим је извршена евалуацију. Резултати добијени над овим корпусом показали су да предложени алгоритам пружа боље резултате у односу на постојећа решења. Коначно, на основу евалуације над корпусима парафраза за српски и енглески извршено је фино подешавање параметара, а такође стечена искуства употребљена су за реализацију модула за одређивање семантичке сличности између питања и корисничког профила. У оквиру реализације фазе прослеђивања питања, дискутоване су специфичности проблема поређења питања и корисничких профила, и предложен је нови алгоритам назван P2Q. Овај алгоритам одређује највећу (максималну) сличност између концепата идентификованих у питању и оних који се налазе у корисничком профилу. Коначно, анализирани су доступни веб портали и одабран је један чији подаци се употребљени за формирање корпуса питања и одговора. У корпусу су издвојене три различите врсте корисника, које моделују: (1) интересовање, (2) знање и (3) истовремено и знање и интересовање. Формирани корпус је затим употребљен за евалуацију целокупног система и тестирање полазних хипотеза. Добијени резултати су показали да P2Q приступ пружа знатно боље резултате у односу на остале евалуиране приступе. Такође, уочено је да употреба семантичке екстракције информација из текста може побољшати резултате. Допринос изложене докторске дисертације је у домену анализе и синтезе једног оваквог софтверског система, који треба да омогући интелигентно прослеђивање питања написаних на природном језику. Такође, на основу резултата евалуације закључено је да правилно додељене тежине могу побољшати перформансе целокупног система, али такође у случају да нису правилно постављене могу их знатно погоршати. Коначно, утврђено је да при профилисању компетентности корисника да пружи одговор на постављено питање, није важно само размотрити његове најбоље одговоре, односно профилисати његово знање, већ је такође потребно узети у обзир и питања која је поставио, с обзиром да она могу изразити интересовање.

Opis (srp)

Електротехника и рачунарство - Рачунарска техника и информатика / Electrical engineering and computer science - Computer engineering and information theory Datum odbrane: 23.12.2013

Jezik

srpski

Datum

2013

Licenca

Creative Commons licenca
Ovo delo je licencirano pod uslovima licence
Creative Commons CC BY-NC-SA 2.0 AT - Creative Commons Autorstvo - Nekomercijalno - Deliti pod istim uslovima 2.0 Austria License.

http://creativecommons.org/licenses/by-nc-sa/2.0/at/legalcode

Predmet

OSNO - Opšta sistematizacija naučnih oblasti, Elektrotehnika

OSNO - Opšta sistematizacija naučnih oblasti, Veštačka inteligencija. Robotika

Intelligent question routing, social search, question-to-profile similarity, user knowledge profiling, semantic similarity of short texts, information extraction from text, questions and answers corpora construction, paraphrase corpora construction

OSNO - Opšta sistematizacija naučnih oblasti, Elektrotehnika

OSNO - Opšta sistematizacija naučnih oblasti, Veštačka inteligencija. Robotika

Интелигентно прослеђивање питања, социјална претрага, сличност питања и корисничког профила, профилисање корисничког знања, семантичка сличност кратких текстова, екстракција информација из текста, креирање корпуса питања и одговора, креирање корпуса парафраза