Το τελευταίο διάστημα στην εθνική υποδομή συσσώρευσης πολιτιστικών πόρων SearchCulture.gr ασχολούμαστε με το Γιώργο Σεφέρη, τη Λασκαρίνα Μπουμπουλίνα, τον Πλάτωνα, τον Μίκη Θεοδωράκη και αρκετές χιλιάδες ακόμη πρόσωπα που άφησαν κάποιο αποτύπωμα στις τέχνες, την ιστορία, τις επιστήμες ή την κοινωνία, από την αρχαιότητα έως σήμερα. Εμπλουτίζουμε πυρετωδώς τα 710.000 τεκμήρια που έχουν συσσωρευθεί στην υποδομή ως προς τα πρόσωπα αυτά, είτε αυτά είναι δημιουργοί, είτε εμφανίζονται ως θέμα σε αυτά. Η νέα αυτή λειτουργικότητα αναμένεται να αναδείξει σημαντικές προσωπικότητες Ελλήνων και θα καταστήσει το έργο τους πιο εύκολα αναζητήσιμο από την ενιαία πύλη αναζήτησης του SearchCulture.gr. Στον παρόν άρθρο παρουσιάζουμε τις διαδικασίες και τη μεθοδολογία που βρίσκεται σε εξέλιξη και που σχεδιάζεται να ολοκληρωθεί μέσα στο καλοκαίρι.
Οι σημασιολογικοί εμπλουτισμοί του περιεχομένου στο SearchCulture.gr δεν είναι μία καινούργια διαδικασία. Σταδιακά από το 2016 αναπτύξαμε δεσμευμένα λεξιλόγια με τα οποία εμπλουτίζουμε/ταξινομούμε τα τεκμήρια ως προς τύπους, ιστορικές περιόδους και θέματα. Οι διαδικασίες κανονικοποίησης και εμπλουτισμού είναι μέρος της στρατηγικής που αναπτύσσει κάθε συσσωρευτής μεγάλων δεδομένων προκειμένου να αντιμετωπίσει το θέμα της ετερογένειας των μεταδεδομένων που συσσωρεύει και με σκοπό να μπορεί να προσφέρει λειτουργίες αναζήτησης και πλοήγησης οριζόντια στα δεκάδες χιλιάδες τεκμήρια.
Για την υποστήριξη των νέων διαδικασιών εμπλουτισμού δημιουργείται ένας νέος Κατάλογος Φυσικών Προσώπων με βασικά βιογραφικά στοιχεία που, σε αυτή τη φάση, περιλαμβάνει ημερομηνία και τόπο γέννησης και θανάτου του δημιουργού, καθώς και τυχόν γνωστά ψευδώνυμά του). Πληροφορίες αντλούνται από διαδεδομένες διαδικτυακές πηγές όπως τη συλλογή Πανδέκτης: Θησαυρός Ελληνικής Ιστορίας & Πολιτισμού – Νεοελληνική Εικονιστική Προσωπογραφία του Ινστιτούτου Ιστορικών Ερευνών του Εθνικού Ιδρύματος Ερευνών, τη Wikipedia, τη διεθνή βάση καθιερωμένων εγγραφών προσώπων Virtual International Authority Files (VIAF), την Εθνική Πινακοθήκη, τη Βιβλιονέτ, τη Μουσική Βιβλιοθήκη Λίλιαν Βουδούρη, το Ινστιτούτο Σύγχρονης Ελληνικής Τέχνης, το Αρχείο Κουνάδη, κ.α..
Ο Κατάλογος των Φυσικών Προσώπων φιλοξενείται στο Semantics.gr, την υποδομή διαχείρισης και δημοσίευσης λεξιλογίων και καταλόγων καθιερωμένων όρων του ΕΚΤ. Με την ένταξη κάθε εγγραφής στο Semantics.gr αποδίδεται σε κάθε πρόσωπο ένα μοναδικό URI, αποκτά δηλαδή, μία σταθερή διεύθυνση στο διαδίκτυο. Κάθε εγγραφή στο λεξιλόγιο εμπλουτίζεται με νέα στοιχεία ή διορθώνεται κατά περίπτωση. Έως σήμερα το λεξιλόγιο περιλαμβάνει 7.500 εγγραφές φυσικών προσώπων. Για το λεξιλόγιο των φυσικών προσώπων δημιουργήθηκε τεκμηριωτικό σχήμα (application profile) που βασίζεται στην κλάση edm:Agent του μοντέλου EDM της Europeana.
Επιπλέον, τα φυσικά πρόσωπα ταξινομήθηκαν ως προς τις ιδιότητές τους βάσει ενός δίγλωσσου λεξιλογίου που αναπτύχθηκε γι’αυτό το σκοπό (π.χ. πολιτικοί, κλήρος, νομικά επαγγέλματα, επαγγέλματα των τεχνών, επιστήμονες, κ.λ.π).
Η διαδικασία των εμπλουτισμών πραγματοποιείται με ημι-αυτόματο τρόπο, σε επίπεδο συλλογής, στην υποδομή Semantics.gr η οποία περιλαμβάνει ένα ειδικό εργαλείο για σημασιολογικούς εμπλουτισμούς. Πιο πρακτικά, το σύστημα ανακτά το σύνολο των εγγραφών που μπορεί να εμφανίζουν ενιαία τιμή στο πεδίο dc:creator στα μεταδεδομένα της συλλογής του φορέα, δείχνει π.χ. τις 11 εγγραφές που έχουν δημιουργό τον Κ.Θ. Δημαρά στη συγκεκριμένη συλλογή, και προτείνει την κοντινότερη εγγραφή που εντοπίζει στο Κατάλογο των Προσώπων για αντιστοίχιση. Στην συνέχεια ο επιμελητής καλείται να επιλέξει το σωστό από τα προτεινόμενα πρόσωπα, τα οποία ενδέχεται να παρουσιάζουν συνωνυμία. Για την διαδικασία αυτή, γνωστή ως αποσαφήνιση όρων (disambiguation), o επιμελητής επιλέγει το σωστό φυσικό πρόσωπο λαμβάνοντας υπόψη τα τεκμήρια της συλλογής στα οποία εμφανίζεται το συγκεκριμένο όνομα και τα βιογραφικά στοιχεία των προτεινόμενων προσώπων από τον κατάλογο, ενώ συχνά καταφεύγει σε περαιτέρω έρευνα για αναζήτηση επιπρόσθετων πηγών. Αν δεν αντιστοιχίζεται κάποιο από τα πρόσωπα του Καταλόγου, ο επιμελητής δημιουργεί μια νέα εγγραφή. Στη συνέχεια, ελέγχονται τα στοιχεία της εγγραφής στον κατάλογο και εμπλουτίζεται η εγγραφή με τα URIs των προσώπων, καταρχήν από τη Wikipedia και το VIAF τα οποία είναι επίσης ΑΔΔ (LOD), καθώς και τα λινκς στις προαναφερθείσες πηγές. Αφού ολοκληρωθεί η καθιέρωση του προσώπου στον Κατάλογο των Φυσικών Προσώπων, γίνεται η αντιστοίχιση της εγγραφής μεταξύ της συλλογής του φορέα και της εγγραφής του καταλόγου. Ένα φυσικό πρόσωπο καθιερώνεται μία φορά στον κατάλογο των φυσικών προσώπων και αντιστοιχίζεται με όλες τις συλλογές στις οποίες εμφανίζεται αυτό ως φυσικό πρόσωπο στο SearchCulture.gr.
Η διαδικασία θα ολοκληρωθεί με την αντιστοίχιση των προσώπων όπου αυτοί εμφανίζονται ως θέμα.‘Ετσι, η αναζήτηση στον Γεώργιο Σεφέρη, θα διαχωρίζει μεταξύ του Σεφέρη ως δημιουργού και του Σεφέρη ως θέμα, π.χ. σε μία φωτογραφία.
Η διαδικασία των εμπλουτισμών και η υλοποίηση των νέων λειτουργιών αναζήτησης και πλοήγησης αναμένεται να ολοκληρωθεί μέσα στο καλοκαίρι.
Τί αποτελέσματα θα έχει η διαδικασία των εμπλουτισμών των φυσικών προσώπων;
Καταρχήν, επιτυγχάνεται η ενιαία απόδοση ενός φυσικού προσώπου οριζόντια σε όλες τις συλλογές ανεξάρτητα από τον τρόπο που το έχει αρχικά αποδώσει ο κάθε φορέας (π.χ. ο ένας φορέας μπορεί να έχει καταχωρήσει το δημιουργό ως Κ.Θ. Δημαρά ή άλλος Κωνσταντίνο Δημαρά). Με αυτό τον τρόπο, το σύνολο του τεκμηρίων που συνδέονται με ένα φυσικό πρόσωπο και τις διαφορετικές εκδοχές του ονόματός του (Ρήγας Φεραίος, Ρήγας Φερραίος, Ρήγας Βελεστινλής), αντιστοιχίζονται με αυτό, ανεξάρτητα από τη συλλογή από την οποία προέρχονται στο SearchCulture.gr. Επίσης, χάρη στη διαδικασία αυτή διακρίνονται πρόσωπα που έχουν συνωνυμία. Μία αναζήτηση π.χ. για τον Λέοντα Μελά θα διακρίνει μεταξύ του διπλωμάτη του 20ου αιώνα και τον πολιτικό και συγγραφέα του “Γεροστάθη” του 19αι αιώνα. Δεδομένου ότι κάθε εγγραφή είναι linked data, διασυνδέεται με άλλες πληροφορίες γύρω από το πρόσωπο που μπορεί να “ζουν” εκτός SearchCulture.gr, όπως είναι το άρθρο για το πρόσωπο στη Wikipedia που περιλαμβάνει βιογραφικές πληροφορίες για το πρόσωπο και την πολυγλωσσική βάση καθιερωμένων όρων VIAF που περιλαμβάνει το σύνολο της εργογραφίας ενός δημιουργού. Με αυτόν τον τρόπο ενισχύεται το έγκριτο ελληνικό περιεχόμενο στον παγκόσμιο σημασιολογικό ιστό.
Ένα από τα σημαντικότερα αποτελέσματα είναι ότι δημιουργείται μία βάση με πάνω από 7.000 φυσικά πρόσωπα διακεκριμένων ελλήνων, καθιερωμένα και δημοσιευμένα ως linked data, διασυνδεδεμένα με το σύνολο του έργου τους που περιλαμβάνται στο SearchCulture.gr και με παραπομπές σε καθιερωμένες εγγραφές σε άλλες έγκριτες βάσεις όπως το VIAF. Η βάση θα είναι ανοικτή προς επανάχρηση από οποιονδήποτε φορέα επιθυμεί να την χρησιμοποιήσει για να εμπλουτίσει με τη σειρά του τις δικές του συλλογές.
Οι εμπλουτισμοί στα πρόσωπα θα ενισχύσουν ακόμη περισσότερο την προχωρημένη αναζήτηση με πολλαπλά κριτήρια, εκτός των χρονικών κριτηρίων και των ιστορικών περιόδων, των τύπων περιεχομένου και των θεμάτων που ήδη συμπεριλαμβάνονται στην αναζήτηση. Θα μπορεί π.χ. ο χρήστης να αναζητήσει “επιστολές” του “Σεφέρη” μεταξύ του 1930 και 1940. Η αναζήτηση θα επιστρέφει πιο “καθαρά” αποτελέσματα αφού θα διαχωρίζει ανάμεσα π.χ. σε συνωνυμίες και σε συσχετιζόμενα πρόσωπα, όπως ο Αλέξανδρος Μαυροκορδάτος και ο Νικόλαος Μαυροκορδάτος.
Θα μπορεί, τέλος, ο χρήστης να πλοηγηθεί σε ενότητες προσώπων με βάση την ιδιότητά τους, π.χ. πολιτικοί, αντιστασιακοί, λογοτέχνες, κ.λπ.
Σε επόμενη φάση πρόκειται να γίνουν εμπλουτισμοί και ως προς τις τοποθεσίες, οι οποίοι θα επιτρέψουν να πραγματοποιήσει κανείς π.χ. αναζήτηση σε λογίους που γεννήθηκαν στην Κωνσταντινούπολη και έλαβαν μέρος στην Ελληνική Επανάσταση.
Μέσα από τις διαδικασίες εμπλουτισμού δημιουργείται προστιθέμενη αξία στα μεταδεδομένα των πολιτιστικών φορέων και αναπτύσσεται σε εθνικό επίπεδο ένα σώμα έγκριτης πληροφορίας επαναχρησιμοποιήσιμης από την ερευνητική κοινότητα, την εκπαίδευση και οποιονδήποτε ενδιαφερόμενο.
Σχετικά με το Semantics.gr
Για τη δημιουργία, τη φιλοξενία και τη διαχείριση του λεξιλογίου των φυσικών προσώπων, χρησιμοποιείται από την ομάδα επιστημόνων πληροφόρησης του ΕΚΤ η υποδομή Semantics.gr. Το Semantics.gr είναι μία πρότυπη υποδομή που έχει επίσης αναπτύξει το ΕΚΤ και η οποία υποστηρίζει τη δημιουργία, επιμέλεια, διασύνδεση και δημοσίευση λεξιλογίων και θησαυρών ως Ανοιχτά Διασυνδεδεμένα Δεδομένα (ΑΔΔ). Το Semantics.gr επίσης παρέχει τα εργαλεία για τις ημι-αυτόματες αντιστοιχίσεις και τους εμπλουτισμούς που πραγματοποιούνται στις συλλογές του SearchCulture.gr. Μία σειρά από δεσμευμένα λεξιλόγια έχουν μέχρι στιγμής αναπτυχθεί και φιλοξενούνται στο Semantics.gr και αξιοποιούνται στις διαδικασίες εμπλουτισμού των υποδομών επιστημονικού και πολιτιστικού περιεχομένου του ΕΚΤ (όπως το Εθνικό Αρχείο Διδακτορικών Διατριβών, την Υπηρεσία Ηλεκτρονικών Εκδόσεων ePublishing, και το νέο Ιδρυματικό Αποθετήριο του ΕΚΤ). Επίσης, τα λεξιλόγια που έχει αναπτύξει το ΕΚΤ παρέχονται ανοικτά σε όποιον θέλει να χρησιμοποιήσει ως linked data και μέσω API.
Το Semantics.gr ως υπηρεσία σε φορείς
Στο προσεχές διάστημα, σχεδιάζεται να προσφερθεί το Semantics.gr ως ολοκληρωμένη υπηρεσία σε φορείς που επιθυμούν οι ίδιοι να δημιουργήσουν, να επιμεληθούν, να διασυνδέσουν και να δημοσιεύσουν λεξιλόγια, θησαυρούς όρων, ταξινομίες και καταλόγους καθιερωμένων ονομάτων ως Ανοικτά Διασυνδεδεμένα Δεδομένα. Επιπλέον, το Semantics.gr θα παρέχει μια σειρά από προσαρμοσμένες υπηρεσίες ιστού (RESTFul APIs) στους εγγεγραμμένους φορείς, οι οποίοι θα μπορούν να τις αξιοποιήσουν στις υποδομές διαχείρισης περιεχομένου τους. Ειδικότερα, ένας φορέας που διαθέτει υποδομές τεκμηρίωσης και διαχείρισης πληροφοριακών πόρων, όπως ηλεκτρονικά αποθετήρια, συστήματα διαχείρισης (ψηφιακών) βιβλιοθηκών, συστήματα ηλεκτρονικής έκδοσης, συστήματα οργάνωσης αρχειακών ή μουσειακών συλλογών – στο εξής Αποθετήρια -, θα μπορεί να τις καταχωρήσει στην πλατφόρμα ορίζοντας συγκεκριμένα τεκμηριωτικά πεδία που, μέσω των APIs, θα παίρνουν τιμές από συγκεκριμένα λεξιλόγια που έχει αναπτύξει ο φορέας ή άλλοι φορείς και που φιλοξενούνται στο Semantics.gr. O εξουσιοδοτημένος φορέας θα έχει αποκλειστική πρόσβαση, ανά αποθετήριο και ανά εγγεγραμμένο πεδίο, στις υπηρεσίες αυτές. Κάθε υπηρεσία θα προσφέρει δυναμική αναζήτηση όρων στα αντίστοιχα λεξιλόγια που έχουν οριστεί για το συγκεκριμένο πεδίο. Το αποθετήριο του φορέα θα μπορεί να αξιοποιήσει τις προσαρμοσμένες αυτές υπηρεσίες προκειμένου η φόρμα τεκμηρίωσης πληροφοριακών πόρων (φόρμα καταλογογράφησης) να υποχρεώνει τον χρήστη να αναζητήσει και να επιλέξει τιμές για τα συγκεκριμένα πεδία μέσα από λίστες τιμών που αντλούνται δυναμικά από τα αντίστοιχα λεξιλόγια.
Μία επιστημονική παρουσίαση για την υποδομή Semantics.gr, τα λεξιλόγια που αναπτύσσονται από το ΕΚΤ και τον τρόπο που αξιοποιούνται για τους εμπλουτισμούς των επιστημονικών και πολιτιστικών πόρων που φιλοξενούνται στις υποδομές του μπορείτε να διαβάσετε στο άρθρο που δημοσιεύσαμε στο 26ο Πανελλήνιο Συνέδριο των Ακαδημαϊκών Βιβλιοθηκών.
Μπορείτε να επικοινωνήσετε μαζί μας σε περίπτωση που σας ενδιαφέρει να αναπτύξετε τα δικά σας λεξιλόγια και να τα δημοσιεύσετε ως Linked Data.
Για μία σύντομη εισαγωγή στα Ανοικτά Διασυνδεδεμένα Δεδομένα (Linked Open Data) μπορείτε να ανατρέξετε στο σχετικό εισαγωγικό οδηγό του EKT.
Πηγή άρθρου: http://blog.openaccess.gr/?p=4633