Title (srp)

Побољшање перформанси прикупљања кориснички генерисаних садржаја на Вебу применом адаптивних интелигентних метода: докторска дисертација

Author

Pavković, Miloš, 1982-, 25102695

Contributor

Protić, Jelica, 1962-, 25654631
Nikolić, Boško, 1972-, 12843879
Kovačević, Miloš, 1968-, 12762983

Description (eng)

User-generated content on Web forums is added much more often than it is deleted or changed, so its targeting during incremental crawling differs from the Web site pages crawling. Adding new content to a forum can result in moving existing content to new or existing pages. Incremental forum crawling is not a trivial task, because ignoring in which way the content is presented, distributed and sorted can lead to the transfer of posts that have already been indexed in the previous crawl cycles. On the other hand, there is a wide spectrum of forum technologies that allow different navigational paths to its latest posts, as well as different ways of presenting and sorting user generated content. This thesis presents Structure-driven Incremental Forum crawler (SInFo) that specializes in targeting the latest content in incremental forum crawling using advanced optimization techniques and machine learning. The main goal of the presented system is to avoid already indexed content in new crawling cycles regardless of its technology. In order to achieve this, the following Web Forum features have been used: (1) the sort method on the index and thread pages and (2) the available navigation paths between the pages that the current Web Forum technology offers. Since the date of content creation plays an important role in determining the type of sort, their detection and normalization is not a trivial task. Machine learning models were used for this task, because the generated dates can be in different formats and in different languages. On the other hand, the detection of navigational paths is achieved by interpreting the URL format and scanning the pages they target. It has been shown that using the proposed methods and techniques while targeting pages with the latest content can achieve a minimum number of duplicate content downloads and maximize the utilization of the navigational structure and paths of the current forum technology. The experiments were performed on a wide range of already existing popular forum technologies as well as on individual stand-alone forum technologies. SInFo has demonstrated high precision and a minimum number of duplicate content transfers in each new crawl cycle. Most of the duplicates that the proposed system encountered are from pages that had to be visited in order to correctly determine the navigational path or to find the appropriate URL. Additionally, machine learning models, although complex, achieved good performance while crawling and have high accuracy in date detection and normalization, reaching an F1-measure of 99%.

Description (srp)

Кориснички генерисан садржај на веб форуму се много чешће додаје него што се брише или мења па се самим тим, циљање истог, приликом инкременталног претраживања, разликује у односу на класично претраживање страна веб сајта. Додавање новог садржаја на форуму може резултовати померањем већ постојећег садржаја на нове или постојеће стране. Инкрементално претраживање форума није тривијалан задатак, јер игнорисање начина на које је садржај презентован, дистрибуиран и сортиран може довести до преноса постова који су већ били индексирани у претходним циклусима претраживања. С друге стране постоји широк спектар форумских технологија које омогућавају различите навигационе путање ка својим најновијим постовима као и различите начине презентовања и сортирања истих. Један од главних резултата тезе је структурно вођени инкрементални претраживач форума (SInFo) који је специјализован за циљање најновијег садржаја приликом инкременталног претраживања коришћењем напредних оптимизационих техника и машинског учења. Главни циљ представљеног претраживача јесте избегавање већ индексираног садржаја у новим циклусима претраживања форума без обзира на његову технологију. Да би овај циљ могао бити испуњен, следеће карактеристике веб форума су искоришћене: (1) начин сортирања на индексним и дискусионим странама и (2) доступне навигационе путање између страна које тренутна веб форумска технологија нуди. С обзиром на то да приликом утврђивања типа сортирања битну улогу има датум креирања садражаја, детекција и нормализација истих није једноставан задатак. За овај задатак су коришћени модели машинског учења, јер генерисани датуми могу бити у различитим форматима и на различтим језицима. С друге стране, детекција навигационих путања се постиже интерпретацијом формата URL линкова и скенирањем страна на које они указују. Показано је да се коришћењем предложених метода и техника, приликом циљања страна са најновијим садржајем, минимизује број преузимања дуплираног садржаја и максимизује искоришћеност навигационе структуре и путања тренутне форум технологије. Експерименти су изведени на широком спектру већ постојећих популарних форумских технологија као и на индивидуалним stand-alone форумским технологијама. SInFo је показао високу прецизност и минималан број преноса дуплог садражаја у сваком новом циклусу претраживања. Већина дупликата на које је предложени претраживач наилазио је са страна које су морале бити посећене како би се исправно утврдила навигациона путања или пронашао одговарајући URL. Додатно, модели машинског учења, иако су комплексни постижу добре перформансе приликом претраживања и имају високу прецизност у детекцији и нормализацији датума, достижући F1-меру од 99%.

Description (srp)

Електротехничко и рачунарско инжењерство - Софтверско инжењерство / Electrical and Computer Engineering - Software Engineering Datum odbrane: 18.02.2021.

Object languages

Serbian

Date

2020

Rights

Creative Commons License
This work is licensed under a
CC BY-NC-SA 2.0 AT - Creative Commons Attribution - Non-Commercial - Share Alike 2.0 Austria License.

CC BY-NC-SA 2.0 AT

http://creativecommons.org/licenses/by-nc-sa/2.0/at/

Subject

Crawling technique, Data retrieval, Machine learning, Incremental crawling, Optimization, Traversal strategy, Web forums

OSNO - Opšta sistematizacija nau?nih oblasti -- Informatika (20) -- Ra?unarska tehnika. Informaciona tehnologija (2005) -- Softversko inženjerstvo (200503)

Identifiers