Naslov (eng)

N-gram analysis of text documents in the Serbian language

Naslov (srp)

N-gram analiza tekstualnih dokumenata na srpskom jeziku

Autor

Marovac, Ulfeta
Avdić, Aldina
Kajan, Ejub
Crnišanin, Adela

Opis (srp)

Sažetak: Savremeni način života, e-poslovanje, velika količina podataka dostupnih u elektronskom obliku nametnuli su potrebu za analizom tekstualnih dokumenata pisanih na različitim prirodnim jezicima. Svaki prirodni jezik ima mnogo pravila i varijacija što otežava analizu dokumenta. N-gram analizom dokumenata rezultati se mogu dobiti bez specifičnih leksičkih resursa. U ovom radu je prikazana n-gramska analiza tekstualnih dokumenata pisanih na srpskom jeziku i algoritam za izdvajanje ključnih reči (n-grama) iz dokumenta.

Opis (eng)

Abstract: The modern way of life, e-business, a large amount of data available in electronic form imposed the need for analysis of textual documents written in different natural languages. Every natural language has many rules and variations which makes analysis of the document more difficult. By N-gram analysis of documents, the results can be obtained without specific lexical resources. In this paper, the n-gram analysis of textual documents written in Serbian language is shown and also the algorithm for extracting keywords (n-grams) from a document.

Jezik

srpski

Datum

2012

Licenca

© All rights reserved

Predmet

Keywords: Text analysis, Electronic mail, HTML, Natural languages, Telecommunications, Servers, Semantics

Ključne reči: analiza teksta, elektronska pošta, HTML, Prirodni jezici, telekomunikacije, serveri, Semantika

Deo kolekcije (1)

o:28516 Radovi nastavnika i saradnika Državnog univerziteta u Novom Pazaru