Naslov (srp)

Развој метода за анализу сличности биолошких секвенци на основу карактеристика поновака : докторска дисертација

Autor

Jovanović, Jasmina T., 1987

Doprinosi

Pavlović-Lažetić, Gordana, 1955-
Mitić, Nenad, 1959-
Kovačević, Jovana, 1983-
Ognjanović, Zoran, 1964-

Opis (eng)

The analysis of biological sequence similarity between different species is significant inidentifying functional, structural or evolutionary relationships among the species. Biologicalsequence similarity and analysis of newly discovered nucleotide and amino acid sequences aredemanding tasks in bioinformatics.As biological data is growing exponentially, new and innovative algorithms are needed to beconstantly developed to get faster and more effective data processing. The challenge in sequencesimilarity analysis algorithms is that sequence does not always have obvious features and thedimension of sequence features may be very high for applying regular feature selection methods onsequences. It is important to have a simple and effective algorithm for determining biologicalsequence relationships.This thesis proposes two new methods for sequence transformation in feature vectors thattakes into consideration statistically significant repetitive parts of analyzed sequences, as well asincludes different approaches for determination of nucleotide sequence similarity and sequenceclassification for predicting taxonomy groups of biological sequence data. The first method is basedon information theory and fact that both position and frequency of repeated sequences are notexpected to occur with the identical presence in a random sequence of the same length. The secondmethod includes building signatures of biological sequences and profiles of taxonomic classesbased on repetitive parts of sequences and distances between these repeats.Proposed methods have been validated on multiple data sets and compared with resultsobtained using different well known and accepted methods in this field like BLAST, Clustal Omegaand methods based on k-mers. Resulted precision for proposed methods is close to values providedfor existing methods for the majority of tested data-sets, and time performance depends strictly toused infrastructure and sequence type. Methods provide results that are comparable with othercommonly used methods focused on resolving the same problem, taking into considerationstatistically significant repetitive parts of sequences with different characteristics.

Opis (srp)

Анализа сличности биолошких секвенци омогућава утврђивање функционалних,структурних и еволуционих односа између различитих организама. Међутим, сличностбиолошких секвенци и утвђивање особина нових нуклеотидних и протеинских секвенци сурачунарски захтевне методе у биоинформатици што намеће потребу за даљим развојемметода и алгоритама за њихово поређење.У складу са брзим растом и доступношћу велике количине биолошких података, новиалгоритми се развијају са циљем што ефикасније и прецизније обраде ових података. Једанод изазова код одређивања сличности биолошких секвенци јесте издвајање скупа значајнихатрибута секвенци, чија кардиналност може да буде велика за примену у постојећимметодама за одређивање сличности елемената. Стога је од изузетног значаја иматиједноставан и ефикасан алгоритам за одређивање међусобних односа биолошких секвенци.Циљ овог рада је формирање и имплементација нових метода за анализу сличностисеквенци на основу статистички значајних поновака различитих дужина и типова. Прваметода се заснива на теорији информација узимајући у обзир позицију и учесталостстатистички значајних поновака, за које се не очекује такво присуство у случајно генерисанојсеквенци исте дужине. Друга метода садржи формирање потписа секвенци и профилатаксономских категорија на основу парова понављајућих делова секвенци, као и растојањаизмеђу елемената тих парова. Идеја ове методе је представити секвенце мањим бројемкарактеристичних тачака у циљу препознавања истих као код алгоритама за препознавањелица.Предложене методе су тестиране на различитим референтним скуповима биолошкихсеквенци и резултати су упоређени са резултатима добро познатих и ефикасних алгоритамакоји се заснивају на поравнању (BLAST, Clustal Omega) и алгоритама без поравнања који сезаснивају на к-торкама. Добијени резултати показују висок ниво конзистентности сарезултатима метода са којима је извршено поређење. Прецизност предложених метода нијебила мања од вредности добијених за постојеће методе са којима су резултати упоређиваниза већи број спроведених тестирања, док је брзина добијања резултата зависила одрачунарске инфраструктуре и примера секвенци. Предложене методе представљају значајнудопуну постојећим методама за одређивање сличности биолошких секвенци, јер седосадашње методе за анализу сличности биолошких секвенци нису заснивале на статистичкизначајним поновцима различитих карактеристика

Opis (srp)

Рачунарство и информатика - Биоинформатика / Computer Science - Bioinformatics Datum odbrane: 30.09.2022.

Jezik

srpski

Datum

2022

Licenca

© All rights reserved

Predmet

OSNO - Opšta sistematizacija naučnih oblasti, Računarska tehnika. Informaciona tehnologija

OSNO - Opšta sistematizacija naučnih oblasti, Biološka matematika. Biometrija

Анализа сличности секвенци; Методе за анализу сличности секвенци без поравнања; Статистички значајни поновци; Ентропија заснована на локалној учесталости; Хијерархијско кластеровање; Вишедимензиони векторски простор; Потписи секвенци; Класификација

OSNO - Opšta sistematizacija naučnih oblasti, Računarska tehnika. Informaciona tehnologija

OSNO - Opšta sistematizacija naučnih oblasti, Biološka matematika. Biometrija

Sequence similarity analysis; Alignment-free method; Statistically significant repeat; Local frequency based entropy; Hierarchical clustering; Multi-dimensional vector space; Sequence signature; Classification