UPB-CTTIP Romdoc: Record#1700: Information extraction from unstructured and semi-structured sources

Thesis /

ROMDOC-THESIS-2017-1180

Information extraction from unstructured and semi-structured sources

Dumitrescu, Ştefan Daniel
2011-12-07

Abstract: Abstract EXTRAGERE DE INFORMAȚII DIN SURSE DE DATE NESTRUCTURATE ȘI SEMI-STRUCTURATE INFORMATION EXTRACTION FROM UNSTRUCTURED AND SEMI-STRUCTURED SOURCES Universitatea Politehnica București Universite Paul Sabatier Doctorand: Ing. Stefan Daniel DUMITRESCU Coordonator: Prof. Dr. Ing. Stefan TRAUSAN-MATU Coordonator second: Prof. Dr. Ing. Florence SEDES The purpose of this study was to investigate the applicability of newly developed semantic resources – general, large scale ontologies – to the field of Information Extraction (IE). Two sub-tasks required for any IE system are Named Entity Recognition (NER) and Word Sense Disambiguation (WSD). NER handles the discovery of named entities (usually single or multi-word proper nouns) and tagging them with a category label such as persons, locations, organizations, etc. WSD handles the correct identification of common words’ senses depending on context. The appearance in the last years of large knowledge resources in the form of general ontologies has opened up new approaches to these tasks. The thesis presents a working system which uses such ontologies to perform both NER and WSD in a single pass. Using custom graph algorithms applied on the knowledge source, as well as using other Natural Language Programming tools and techniques, the proposed General Entity Recognition System (GERS) takes as input unstructured text and outputs interesting entities (both common and proper nouns extracted from the text) with their appropriately assigned ontological classes. This effectively translates unstructured information from sentences (words) to structured information in ontologies (ontological classes). The system shows reasonable performance when tested against a manually created “gold standard” (100% correct test) given the complexity of the problem. The second implemented system takes on the classical problem of text classification, currently dominated by machine learning approaches. Using large ontologies and a custom context-aware semantic score function as well as a semi-automatic topic creation step, this unsupervised, knowledge-rich approach shows performance close to the state-of-theart Support Vector Machine. The thesis concludes with a discussion about the benefits but also disadvantages of using general, large-scale ontologies in active areas of IE as resulted from the experiments performed with the implemented systems. Scopul acestul studiu a fost investigarea aplicabilității noilor resurse semantice – ontologiile generale, de mari dimensiuni – în domeniul Extragerii de Informație. Două sub-probleme ale Extragerii de Informație sunt Recunoașterea Entităților Denumite (NER) și Dezambiguizarea la Nivel de Sens (WSD). NER se ocupă de recunoasterea entitatilor proprii (de obicei substantive proprii formate dintr-unul sau mai multe cuvinte) și de asocierea acestora cu o categorie precum: persoane, locații, organizații. WSD se ocupă de asocierea sensului corect cu un anumit substantiv comun, în funcție de context. Apariția în ultimii ani a resurselor de informații generale, sub forma unor ontologii de mari dimensiuni a dus la dezvoltarea mai multor metode de abordare a celor două sub-probleme. Teza prezintă un sistem care utilizează ontologiile de mari dimensiuni pentru a rezolva cele doua sarcini: NER și WSD într-un singur pas. Uilizând teoria grafurilor aplicată pe sursele de cunoștiințe, precum și alte tehnici și metode de Programare a Limbajului Natural, sistemul propus – un Sistem General de Recunoastere a Entităților (GER) primeste ca intrare text nestructurat și prezintă entitățile (atât substantive comune cât și substantive proprii extrase din text) în asociere cu clasele ontologice. Astfel, sistemul practic traduce informația nestructurată (cuvinte) din propozitii în informatie structurată din ontologii (clase ontologice). Sistemul prezintă o performanță rezonabilă prin comparatie cu un standard creat manual (100% corect) și în raport cu complexitatea problemei. Al doilea sistem implementat are în vedere clasica problemă a clasificarii de text, problemă abordată în prezent predominant prin metode ale invățării automate. Utilizând ontologiile de mari dimensiuni și o funcție dependentă de context de similaritate semantică precum și un pas semi-automat de creare de subiecte, această metodă nesupervizată, bogată în cunoștiințe se apropie ca performanță de metodele curente bazate pe Mașini Vector-Suport (SVM). Pe baza experimentelor realizate cu ajutorul sistemelor implementate, teza se încheie cu o discuție asupra beneficiilor și dezavantajelor utilizării ontologiilor generale, de scară largă în domeniul Extragerii de Informație.

Keyword(s): Prelucrarea datelor -- Teză de doctorat ; Data mining -- Teză de doctorat ; Web -- Regăsirea informaţiei -- Teză de doctorat
OPAC: See record in BC-UPB Web OPAC
Full Text: see files

Record created 2017-04-03, last modified 2017-04-03

Similar records

People who viewed this page also viewed:

(282)  Optimizarea conceptuală şi operaţională a instalaţiilor chimice multiscop - Voinescu, Sorin - ROMDOC-BC_UPB-THESIS-2003-000000054

(280)  Cercetări privind dezvoltarea de interfeţe utilizator virtuale pentru aplicaţii de teleoperare în robotică - Popa, Stelian - ROMDOC-THESIS-2021-2322

(276)  Managementul congestiilor în sistemele electroenergetice în prezenţa surselor regenerabile - Boambă, Claudia-Elena - ROMDOC-THESIS-2021-2325

(274)  Contribuţii la optimizarea logisticii sistemelor complexe de servicii - Marin, Dumitru - ROMDOC-BC_UPB-THESIS-2004-000000326

(273)  Tehnologiile informării şi comunicării : suport de curs - Curta, Olimpia - ROMDOC-BOOK-2007-005

Rate this document:

Be the first to review this document.

Discuss this document:

Start a discussion about any aspect of this document.