Thesis / ROMDOC-THESIS-2016-655

Sinteza structurală a bazelor de date de înaltă performanţă

Vasilescu, Rareş

Abstract: Sinteza Structurală a Bazelor de Date de Înaltă Performanță Abstract Volumul mare al informațiilor nestructurate existente într-o organizație atrage cu sine necesitatea organizării în forme care să permită utilizarea eficientă. Bazele de date sunt de cele mai multe ori suportul informatic de la baza organizării acestora. În această lucrare se vor prezenta studii și experimente atat pentru proiectarea cât și pentru construirea unui sistem de gestiune a datelor de dimensiuni mari, din categoria sistemelor de gestiune a conținutului (eng: Content Management Systems). Lucrarea prezintă caracteristicile unui sistem de gestiune a conținutului, privind din perspectiva utilizării acestuia ca o plaformă de gestiune a datelor și definește metricile de performanță specifice iar o secțiune importantă prezintă cele mai importante provocări din punct de vedere al performanței. Performanța este prezentată nu numai ca o măsură a timpului de răspuns ci și din alte puncte de vedere cum ar fi capacitatea de persistență în timp a sistemului (zeci de ani) în contextul permanentei evoluții tehnologice. Urmând analiza principalelor provocări idenficate, lucrarea propune o arhitectură a unui nou tip de sistem de gestiune a datelor, sistem specializat pe problemele specifice gestiunii de conținut. Se prezintă apoi implementarea efectivă a acestei arhitecturi și se discută cele mai importante decizii de proiectare. Implementarea este apoi analizată din punct de vedere al performanțelor prin compararea cu aceeași implementare dar folosind sisteme de gestiune a bazelor de date tradiționale. Testele de performanță arată viabilitatea noii arhitecturi și în special faptul că prezintă performanțe deosebite la volume impresionante de date. Ca pași următori se urmarește implementarea unei interfețe standard de utilizare a sistemului conforme cu standardul CMIS (Content Management Interoperability Standard) ceea ce va da posibilitatea utilizării din aplicații independente și evaluarea performanțelor comparativ cu sisteme comerciale de gestiune a conținutului implementate pe arhitecturi tradiționale. Structural Synthesis of High Performance Databases Abstract The increasing volume of unstructured data existent inside current organizations generates the need for its efficient management. Databases are usually the informational support used to manage such volumes. This paper will present studies and experiments for both the design and the implementation of data having considerable size – content management systems. While content management tasks can be easily implemented using the existing database systems, we believe that high performance implementations require specialized processing and architectures. We will present the characteristics of content management systems, focusing on its usage as a data management platform. One of the most important sections of the paper will define the performance metrics and the most important challenges generated from these performance expectations. Performance is defined not only as a quantitative measure of response time but also from other perspectives such as the system resilience in long time periods (tens of years) given the continuous technical evolution. A new architecture is proposed in the paper, following the analysis of the main identified challenges. An actual implementation of the architecture is also described and several important design decisions are detailed. The implementation quantitiative performance behaviour is then assesed in order to validate the architectural decisions and observer the scalability to large data volumes. The implementation is then benchmarked in comparison with an alternate implementation of the same architecture but using an off the shelf standard database management system. The observed performance tests show that the architecture allows high performance metrics to be achieved and that it compares very well to other common database management systems and therefore we consider that we succesfully designed a technical implementation of a new model which supplies greater performance than conventional implementations. As next steps we aim to implement a standard interface to the designed system, using the CMIS (Content Management Interoperability Standard). This will open the possibilities to test the proposed system with third party software applications and will give a more precise indication of how it compares with existing traditional products from a performance point of view.

Keyword(s): Baze de date -- Gestiune -- Teză de doctorat ; Informaţie digitală -- Teză de doctorat ; Sistem de gestiune a conţinutului -- Teză de doctorat
