Naslov (eng)

Prediction of alphabets of local protein structures using data mining methods: doctoral dissertation : doctoral dissertation

Autor

Maljković, Mirjana M., 1986-

Doprinosi

de Brevern, Alexandre
Malkov, Saša, 1970-
Kovačević, Jovana, 1983-
Mitić, Nenad, 1959-

Opis (eng)

Proteins are linear biological polymers composed of amino acidswhose structure and function are determined by the number and order of aminoacids. The structure of the protein has three levels: primary, secondary and ter-tiary (three-dimensional, 3D) structure. Since the experimental determination ofprotein 3D structure is expensive and time-consuming, it is important to developpredictors of protein 3D structure properties from the amino acid sequence (pri-mary structure), such as 3D structure of the protein backbone. The 3D structureof the backbone can be described using prototypes of local protein structure, i.e.prototypes of protein fragments with a length of few amino acids. A set of localstructure prototypes determines the library of local protein structures, also calledthe structural alphabet. A structural alphabet is defined as a set of N proto-types of L amino acid length. The subject of this dissertation is the developmentof models for the prediction of structural alphabet prototypes for a given aminoacid sequence using different data mining approaches. As one of the most known,structural alphabet Protein Blocks (PBs) was used in one part of the doctorial re-search. Structural alphabet PBs consists of 16 prototypes that are defined usingfragments of 5 consecutive amino acids. The amino acid sequence is combinedwith the structural properties of a protein that can be determined based on aminoacid sequence (occurrence of repeats in the amino acid sequence) and results ofpredictors of protein structural properties (backbone angles, secondary structures,occurrence of disordered regions, accessible surface area of amino acids) as aninput to the prediction model of structural alphabet prototypes. Besides the de-velopment of models for prediction of prototypes of existing structural alphabet,the analysis of the capability of developing new structural alphabets is researchedby applying the TwoStep clustering algorithm and construction of models for theprediction of prototypes of new structural alphabets. Several structural alpha-bets, which differ in the length of prototypes and the number of prototypes, havebeen constructed and analyzed. Fragments of the large number of proteins, whosestructure is experimentally determined, were used to construct the new structuralalphabets.

Opis (eng)

computer science - data mining, bioinformatics / računarstvo - istraživanje podataka, bioinformatika Datum odbrane: 15.10.2019.

Opis (srp)

Proteini su linearni biološki polimeri sastavljeni od aminokiselina čijibroj i redosled određuju strukturu i funkciju proteina. Struktura proteina je defin-isana sa tri nivoa: primarnom, sekundarnom i tercijarnom (trodimenzionalnom,3D) strukturom. Pošto je eksperimentalno određivanje 3D strukture proteinaskupo i vremenski zahtevno, postoji potreba za razvojem programa koji na osnovuaminokiselinske sekvence (primarne strukture) predviđaju osobine 3D strukture,kao što je 3D struktura glavnog lanca proteina (eng. backbone). 3D strukturaglavnog lanca proteina može da se opiše korišćenjem prototipova lokalne struktureproteina, tj. delova proteina od nekoliko uzastopnih aminokiselina. Skup defin-isanih prototipova lokalne strukture čini biblioteku lokalnih struktura proteina,koja se još naziva i strukturni alfabet (eng. structural alphabet). Svaki strukturnialfabet je definisan kao skup od N prototipova dužine L aminokiselina. Pred-met ove disertacije je pravljenje modela za predviđanje prototipova strukturnogalfabeta za zadatu aminokiselinsku sekvencu primenom različitih algoritama is-traživanja podataka. Kao jedan od najpoznatijih, strukturni alfabet Protenskiblokovi (eng. Protein Blocks) je korišćen u jednom delu istraživanja u okviru dis-ertacije. Strukturni alfabet Proteinski blokovi se sastoji od 16 prototipova koji sunapravljeni na osnovu delova proteina od 5 uzastopnih aminokiselina. Kao ulazu model za predviđanje prototipova strukturnog alfabeta koriste se strukturneosobine proteina koje mogu da se odrede na osnovu aminokiselinske sekvence(lokacija ponavljajuće niske u aminokiselinskoj sekvenci) i rezultati predviđanjanekih strukturnih osobina proteina (uglovi glavnog lanca, sekundarne strukture,pojavljivanje neuređenih regiona, pristupačna površina). Pored razvoja modelaza predviđanje prototipova postojećeg strukturnog alfabeta, u radu je izvršena ianaliza mogućnosti razvoja novih strukturnih alfabeta primenom algoritma klas-terovanja TwoStep i pravljenje modela za predviđanje prototipova novih struk-turnih alfabeta. Radi analize, napravljeno je više strukturnih alfabeta sa različitimbrojem prototipova i različite dužine prototipova. Za istraživanje novih strukturnialfabeta korišćeni su delovi velikog broja proteina čija je struktura eksperimen-talno određena

Jezik

srpski

Datum

2021

Licenca

Creative Commons licenca
Ovo delo je licencirano pod uslovima licence
Creative Commons CC BY-NC-ND 3.0 AT - Creative Commons Autorstvo - Nekomercijalno - Bez prerada 3.0 Austria License.

http://creativecommons.org/licenses/by-nc-nd/3.0/at/legalcode

Predmet

OSNO - Opšta sistematizacija naučnih oblasti, Podaci. Sistemi za upravljanje bazama podataka

OSNO - Opšta sistematizacija naučnih oblasti, Biološka matematika. Biometrija

istraživanje podataka, strukturni alfabeti, model za predviđanje, Proteinski blokovi

OSNO - Opšta sistematizacija naučnih oblasti, Podaci. Sistemi za upravljanje bazama podataka

OSNO - Opšta sistematizacija naučnih oblasti, Biološka matematika. Biometrija

data mining, structural alphabet, prediction model, Protein Blocks