Πολιτιστική κληρονομιά και τεχνητή νοημοσύνη: Ποιος ελέγχει τα δεδομένα του πολιτισμού;

Η ραγδαία εξάπλωση της γενετικής τεχνητής νοημοσύνης έχει ανοίξει μια νέα και ιδιαίτερα κρίσιμη συζήτηση γύρω από τον τρόπο με τον οποίο χρησιμοποιούνται τα δεδομένα πολιτιστικής κληρονομιάς. Μουσεία, βιβλιοθήκες, αρχεία και πολιτιστικοί οργανισμοί σε όλη την Ευρώπη διαθέτουν τεράστιους όγκους ψηφιοποιημένου υλικού — από έργα τέχνης και ιστορικά έγγραφα μέχρι φωτογραφίες, ηχητικά αρχεία και μεταδεδομένα. Αυτά τα δεδομένα αποτελούν πλέον πολύτιμη «πρώτη ύλη» για την εκπαίδευση συστημάτων τεχνητής νοημοσύνης.

Η νέα μελέτη με τίτλο «Publishing Cultural Heritage Data in the Age of AI», που εκπονήθηκε για λογαριασμό του Europeana Foundation από το Open Future Foundation, εξετάζει ακριβώς αυτό το ζήτημα: πώς μπορούν οι οργανισμοί πολιτιστικής κληρονομιάς να διατηρήσουν την αποστολή της ανοιχτής πρόσβασης στη γνώση, χωρίς όμως να μετατραπούν σε ανεξέλεγκτους προμηθευτές δεδομένων για μεγάλες εταιρείες τεχνητής νοημοσύνης.

Η νέα αξία των πολιτιστικών δεδομένων

Τα τελευταία χρόνια, και ιδιαίτερα μετά την εμφάνιση εργαλείων όπως το ChatGPT, οι εταιρείες ανάπτυξης AI αναζητούν τεράστιες ποσότητες δεδομένων υψηλής ποιότητας για την εκπαίδευση των μοντέλων τους. Τα δεδομένα πολιτιστικής κληρονομιάς θεωρούνται εξαιρετικά πολύτιμα, όχι μόνο λόγω του όγκου τους αλλά και επειδή είναι επιμελημένα, αξιόπιστα και ιστορικά τεκμηριωμένα.

Η μελέτη επισημαίνει ότι τα πολιτιστικά ιδρύματα δεν διαθέτουν μόνο ψηφιοποιημένα αντικείμενα, αλλά και μεταδεδομένα — πληροφορίες που περιγράφουν, οργανώνουν και ερμηνεύουν τις συλλογές. Αυτά τα στοιχεία είναι ιδιαίτερα χρήσιμα για τα συστήματα AI, τα οποία βασίζονται σε μεγάλες και καλά δομημένες βάσεις δεδομένων.

Σύμφωνα με την έρευνα, η χρήση αυτών των δεδομένων από την τεχνητή νοημοσύνη γίνεται με δύο βασικούς τρόπους:

Εκπαίδευση μοντέλων AI: Οι εταιρείες συλλέγουν μεγάλες ποσότητες δεδομένων μέσω web scraping ή ειδικών συμφωνιών με ιδρύματα.
Χρήση από ήδη εκπαιδευμένα συστήματα: Τα AI εργαλεία αναζητούν πληροφορίες σε πραγματικό χρόνο για να απαντήσουν σε ερωτήματα χρηστών ή να αναλύσουν περιεχόμενο.

Η διαφορά είναι σημαντική: ενώ η εκπαίδευση απαιτεί μία μαζική συλλογή δεδομένων, τα συστήματα που λειτουργούν καθημερινά μπορούν να δημιουργήσουν συνεχή και αυξανόμενη πίεση στις υποδομές των πολιτιστικών οργανισμών.

Το νομικό πλαίσιο και τα όριά του

Η μελέτη αναλύει εκτενώς το ευρωπαϊκό νομικό πλαίσιο σχετικά με τα πνευματικά δικαιώματα και την εξόρυξη δεδομένων (Text and Data Mining – TDM). Η ευρωπαϊκή οδηγία DSM του 2019 επιτρέπει, υπό προϋποθέσεις, τη χρήση έργων για εκπαίδευση AI, εκτός αν οι δικαιούχοι έχουν δηλώσει ρητά εξαίρεση.

Ωστόσο, το πρόβλημα είναι ότι στην πράξη τα πολιτιστικά ιδρύματα έχουν περιορισμένες δυνατότητες ελέγχου. Ακόμη και όταν εφαρμόζονται τεχνικά μέτρα ή μηχανισμοί opt-out, δεν υπάρχουν διεθνώς αποδεκτά πρότυπα που να εγγυώνται ότι οι εταιρείες AI θα σεβαστούν αυτές τις επιλογές.

Η μελέτη καταλήγει σε ένα αρκετά ρεαλιστικό συμπέρασμα: οτιδήποτε δημοσιεύεται ανοιχτά στο διαδίκτυο είναι πολύ πιθανό να χρησιμοποιηθεί τελικά για την εκπαίδευση συστημάτων AI.

Το δίλημμα των πολιτιστικών οργανισμών

Η έρευνα θέτει ένα κρίσιμο ερώτημα: πρέπει οι οργανισμοί πολιτιστικής κληρονομιάς να συνεχίσουν να προσφέρουν ανοιχτή πρόσβαση στα δεδομένα τους ή να περιορίσουν την πρόσβαση για να προστατεύσουν τη βιωσιμότητά τους;

Από τη μία πλευρά, η ανοιχτή πρόσβαση αποτελεί θεμελιώδη αρχή της πολιτιστικής πολιτικής της Ευρώπης. Η διάθεση της γνώσης προς όλους θεωρείται δημόσιο αγαθό.

Από την άλλη πλευρά, η μαζική χρήση δεδομένων από μεγάλες εταιρείες AI δημιουργεί νέα κόστη:

αυξημένη χρήση υποδομών,
μεγαλύτερες απαιτήσεις αποθήκευσης και δικτύων,
ανάγκη διαχείρισης bots και scraping,
απώλεια ελέγχου πάνω στον τρόπο αξιοποίησης των συλλογών.

Η μελέτη τονίζει ότι υπάρχει πλέον μια «δομική ανισορροπία» μεταξύ δημόσιων πολιτιστικών οργανισμών και μεγάλων τεχνολογικών εταιρειών που διαθέτουν τεράστιους οικονομικούς πόρους.

Η πρόταση: διαφοροποιημένο μοντέλο πρόσβασης

Ως απάντηση σε αυτό το πρόβλημα, η έρευνα προτείνει ένα νέο «διαφοροποιημένο μοντέλο πρόσβασης» στα πολιτιστικά δεδομένα.

Το μοντέλο βασίζεται σε τρεις μορφές πρόσβασης:

1. Ανοιχτή πρόσβαση για μεμονωμένα αντικείμενα

Οι χρήστες θα συνεχίσουν να έχουν ελεύθερη πρόσβαση σε εικόνες, τεκμήρια και ψηφιακά αντικείμενα μέσω ιστοσελίδων και online συλλογών.

2. Ελεγχόμενη πρόσβαση μέσω API

Για πιο εκτεταμένη ή αυτοματοποιημένη χρήση, οι οργανισμοί θα μπορούν να παρέχουν πρόσβαση μέσω APIs με όρους χρήσης, όρια πρόσβασης και παρακολούθηση δραστηριότητας.

3. Υπό όρους πρόσβαση για μαζική χρήση δεδομένων

Η πιο σημαντική πρόταση αφορά τη μαζική λήψη δεδομένων για εκπαίδευση AI. Σε αυτή την περίπτωση, η πρόσβαση δεν θα είναι πλήρως ελεύθερη.

Οι οργανισμοί θα μπορούν:

να θέτουν ειδικούς όρους,
να διαχωρίζουν εμπορική από μη εμπορική χρήση,
να ζητούν οικονομική συνεισφορά από μεγάλες εταιρείες AI,
να απαιτούν διαφάνεια σχετικά με τη χρήση των δεδομένων.

Η λογική πίσω από αυτή την πρόταση δεν είναι η «ιδιωτικοποίηση» της πολιτιστικής κληρονομιάς, αλλά η προστασία της βιωσιμότητας των δημόσιων πολιτιστικών υποδομών.

«Το περιεχόμενο είναι ελεύθερο — οι υποδομές όχι»

Η μελέτη αναφέρει ως παράδειγμα το Wikimedia Foundation, το οποίο αντιμετωπίζει ήδη σημαντικά προβλήματα λόγω της μαζικής χρήσης δεδομένων από εταιρείες AI. Η Wikimedia έχει αναπτύξει υπηρεσίες ειδικά σχεδιασμένες για μεγάλους εμπορικούς χρήστες, με οικονομική συνεισφορά προς τη συντήρηση της υποδομής.

Η φιλοσοφία συνοψίζεται στη φράση:

«Το περιεχόμενο είναι ελεύθερο, αλλά οι υποδομές δεν είναι.»

Αυτή η λογική φαίνεται να κερδίζει έδαφος και σε επίπεδο ευρωπαϊκής πολιτικής, καθώς η ΕΕ εξετάζει πλέον τρόπους προστασίας των δημόσιων δεδομένων από δυσανάλογη εκμετάλλευση από πολύ μεγάλες ψηφιακές πλατφόρμες.

Μια νέα εποχή για την πολιτιστική κληρονομιά

Η έρευνα δεν προτείνει το κλείσιμο των πολιτιστικών δεδομένων ούτε την εγκατάλειψη της ανοιχτής πρόσβασης. Αντίθετα, επιχειρεί να επαναπροσδιορίσει την έννοια της «ανοιχτότητας» σε μια εποχή όπου η τεχνητή νοημοσύνη μετατρέπει κάθε ψηφιακό αρχείο σε πιθανό εμπορικό πόρο.

Το βασικό ερώτημα πλέον δεν είναι αν τα πολιτιστικά δεδομένα θα χρησιμοποιηθούν από την AI — αυτό θεωρείται σχεδόν βέβαιο. Το πραγματικό ζήτημα είναι με ποιους όρους θα γίνει αυτή η χρήση και αν οι πολιτιστικοί οργανισμοί θα μπορέσουν να διατηρήσουν τον δημόσιο και κοινωνικό τους ρόλο μέσα σε ένα νέο, ιδιαίτερα ανταγωνιστικό ψηφιακό περιβάλλον.

Η συζήτηση που ανοίγει η συγκεκριμένη μελέτη αναμένεται να επηρεάσει σημαντικά το μέλλον της ψηφιακής πολιτιστικής πολιτικής στην Ευρώπη. Και ίσως αποτελέσει ένα από τα πρώτα σοβαρά βήματα για τον επανακαθορισμό της σχέσης ανάμεσα στον πολιτισμό, τη γνώση και την τεχνητή νοημοσύνη.