Ενα νέο πεδίο αντιπαράθεσης ανοίγει μεταξύ των media και των εταιρειών τεχνητής νοημοσύνης: Πάνω από 245 ειδησεογραφικοί οργανισμοί σε εννέα χώρες επιχειρούν να μπλοκάρουν τα προγράμματα ανίχνευσης (crawlers) του Internet Archive.
Πρόκειται για αυτοματοποιημένα λογισμικά (bots) που καταγράφουν, αρχειοθετούν και προβάλλουν περιεχόμενο ιστοσελίδων από το Internet Archive, μεσω διεπαφής.
Το αρχείο περιλαμβάνει πάνω από ένα τρισεκατομμύριο σελίδες, με ημερομηνίες έως το 1996, γεγονός που το καθιστά έναν από τους μεγαλύτερους παγκοσμίως δημόσιους συλλογικούς πόρους πληροφόρησης. Σε αυτό περιλαμβάνονται παλαιότερα άρθρα μεγάλων μέσων ενημέρωσης όπως τα CNN, The New York Times, The Guardian και USA Today.
Αυτές οι ιστοσελίδες αξιοποιούνται για πολλούς σκοπούς, μεταξύ άλλων ως πρωτογενείς πηγές για ιστορικούς ή για την τεκμηρίωση αλλαγών που έγιναν μετά τη δημοσίευση.
Τεράστιες δυνατότητες
Πλέον, αρκετοί ειδησεογραφικοί οργανισμοί πιέζουν για να μπλοκάρουν τους crawlers, καθώς εταιρείες τεχνητής νοημοσύνης χρησιμοποιούν το περιεχόμενο του αρχείου για την εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLMs) χωρίς να καταβάλλουν δίκαιη αμοιβή ή να εξασφαλίζουν άδεια.
Περισσότεροι από 20 μεγάλοι ειδησεογραφικοί οργανισμοί μπλοκάρουν ήδη το ia_archiverbot, τον βασικό ανιχνευτή ιστού που χρησιμοποιεί το Internet Archive για το Wayback Machine.
Τουλάχιστον ένα από τα τέσσερα προγράμματα ανίχνευσης του αρχείου μπλοκάρεται από 241 ενημερωτικές ιστοσελίδες παγκοσμίως. Ένα μεγάλο μέρος από αυτές τις μπλοκαρισμένες ιστοσελίδες ανήκει στην USA Today Co, τον μεγαλύτερο εκδότη εφημερίδων στις ΗΠΑ. Αυτό σημαίνει ότι εκατοντάδες τοπικές εκδόσεις έχουν πρακτικά αφαιρεθεί από τα ιστορικά αρχεία.
Το αρχειακό ειδησεογραφικό περιεχόμενο προσφέρει τεράστιες ποσότητες κειμένου και εικόνων υψηλής ποιότητας για την εκπαίδευση μεγάλων μοντέλων τεχνητής νοημοσύνης σε πιο ανθρώπινο λόγο. Το υλικό είναι προσβάσιμο μέσω URL και διεπαφής API, η οποία επιτρέπει σε διαφορετικά λογισμικά να επικοινωνούν μεταξύ τους και να ζητούν δεδομένα, λειτουργώντας ως γέφυρα ανάμεσα σε συστήματα.
Αυτό διευκολύνει ακόμη περισσότερο τις εταιρείες τεχνητής νοημοσύνης να έχουν πρόσβαση σε αρχειακά δεδομένα και να εκπαιδεύουν τα μοντέλα τους.
Ένα ακόμη πλεονέκτημα είναι ότι το περιεχόμενο στο Internet Archive είναι ήδη δομημένο και χρονολογημένο.
Ζήτημα πνευματικών δικαιωμάτων
Μεγάλο μέρος των δεδομένων του Internet Archive έχει ήδη εντοπιστεί σε βασικά σύνολα δεδομένων εκπαίδευσης τεχνητής νοημοσύνης. Αυτό θεωρείται "κλοπή" από τους ειδησεογραφικούς οργανισμούς, οι οποίοι ήδη μηνύουν εταιρείες όπως η OpenAI και η Perplexity για πιθανές παραβιάσεις πνευματικών δικαιωμάτων.
«Το πρόβλημα είναι ότι το περιεχόμενο των Times στο Internet Archive χρησιμοποιείται από εταιρείες τεχνητής νοημοσύνης κατά παράβαση του νόμου περί πνευματικής ιδιοκτησίας, για να ανταγωνίζονται άμεσα εμάς», δήλωσε ο Graham James, εκπρόσωπος της εφημερίδας The New York Times.
«Οι Times επενδύουν τεράστιους πόρους στην παραγωγή πρωτότυπης δημοσιογραφίας και αυτή η δουλειά δεν θα έπρεπε να χρησιμοποιείται χωρίς την άδειά μας».
Άλλοι οργανισμοί, όπως ο The Guardian, έχουν υιοθετήσει πιο συντηρητική προσέγγιση, περιορίζοντας αντί να μπλοκάρουν πλήρως την πρόσβαση του αρχείου.
ΠΗΓΗ: Euronews