Algorithms for XML Stream Processing: Massive Data, External Memory and Scalable Performance

16 mai 2011

Muath ALRAMMAL (LACL) Soutenance de thèse, 10h - salle des thèses

Plusieurs applications modernes nécessitent un traitement de flux massifs de données XML, cela crée des défis techniques. Parmi ces derniers, il y a la conception et la mise en ouvre d’outils pour optimiser le traitement des requêtes XPath. Il s’agit alors de fournir une estimation précise des coûts de ces requêtes traitées sur un flux massif de données XML.

Dans cette thèse, nous proposons un nouveau modèle de prévision de performance qui estime à priori le coût (en terme d’espace utilisé et de temps écoulé) pour les requêtes structurelles du fragment de langage Forward XPath. Ce faisant, nous réalisons une étude expérimentale pour confirmer la relation linéaire entre le traitement de flux, et les ressources d’accès aux données. Par conséquent, nous présentons un modèle mathématique (utilisant des régressions linéaires) pour prévoir le coût d’une requête XPath. En outre, nous présentons une technique nouvelle d’estimation de la sélectivité. Elle constituée de deux éléments. Le premier est le résumé path tree ou arbre des chemins: une présentation concise et précise de la structure d’un document XML. Le second est l’algorithme d’estimation de sélectivité: un algorithme efficace de flux pour traverser l’arbredes chemins afin d’estimer les valeurs des paramètres de coût. Ces paramètres sont utilisés par le modèle mathématique pour déterminer le coût d’une requête XPath. Nous comparons les performances de notre modèle avec les approches existantes. De plus, nous présentons un cas d’utilisation de celui-ci dans un système en ligne appelé “online stream-querying system”. Le système utilise notre modèle de prédiction de performance pour estimer le coût (en terme de temps / mémoire) d’une requête XPath. En outre, il fournit une estimation précise à l’auteur de la requête relativement au coût et au volume de sa requête. Ce cas d’utilisation illustre les avantages pratiques de la gestion de performance avec nos techniques.