
AI και Προσωπικά Δεδομένα: Πώς Διαβατήρια και Βιογραφικά Εκπαιδεύουν την Τεχνητή Νοημοσύνη
Η επανάσταση της τεχνητής νοημοσύνης προχωρά με ιλιγγιώδεις ρυθμούς, όμως μια νέα έρευνα φέρνει στο φως μια ανησυχητική πραγματικότητα: εκατομμύρια εικόνες διαβατηρίων, πιστωτικών καρτών, πιστοποιητικών γέννησης και άλλων εγγράφων που περιέχουν προσωπικά δεδομένα είναι πιθανό να περιλαμβάνονται σε ένα από τα μεγαλύτερα σύνολα δεδομένων για την εκπαίδευση AI ανοιχτού κώδικα.
Η Σοκαριστική Αποκάλυψη της Έρευνας
Χιλιάδες εικόνες —συμπεριλαμβανομένων αναγνωρίσιμων προσώπων— βρέθηκαν σε ένα μικρό μόνο υποσύνολο του DataComp CommonPool, ενός τεράστιου συνόλου δεδομένων που χρησιμοποιείται για την εκπαίδευση μοντέλων δημιουργίας εικόνων. Τα δεδομένα αυτά συλλέχθηκαν αυτόματα από το διαδίκτυο (web scraping), χωρίς τη συγκατάθεση των χρηστών.
Δεδομένου ότι οι ερευνητές έλεγξαν μόλις το 0,1% των δεδομένων του CommonPool, εκτιμούν ότι ο πραγματικός αριθμός εικόνων που περιέχουν προσωπικά δεδομένα, όπως πρόσωπα και επίσημα έγγραφα ταυτοποίησης, ανέρχεται σε εκατοντάδες εκατομμύρια. Αυτό θέτει σοβαρά ερωτήματα για το μέλλον της ιδιωτικότητας και την ηθική στην εξέλιξη του AI.
Η μελέτη που περιγράφει λεπτομερώς την παραβίαση δημοσιεύθηκε στο arXiv νωρίτερα αυτό το μήνα και έχει προκαλέσει παγκόσμια ανησυχία.
«Το τελικό συμπέρασμα», λέει ο William Agnew, μεταδιδακτορικός ερευνητής στην ηθική της AI στο Πανεπιστήμιο Carnegie Mellon και ένας από τους συγγραφείς, «είναι ότι οτιδήποτε ανεβάζετε στο διαδίκτυο μπορεί να έχει συλλεχθεί και πιθανότατα έχει ήδη συλλεχθεί».
Τι Είδους Ευαίσθητα Δεδομένα Εκτέθηκαν;
Οι ερευνητές εντόπισαν χιλιάδες περιπτώσεις επιβεβαιωμένων εγγράφων ταυτοποίησης, όπως:
- Εικόνες πιστωτικών καρτών
- Άδειες οδήγησης
- Διαβατήρια
- Πιστοποιητικά γέννησης
Από Βιογραφικά μέχρι Ποινικά Μητρώα
Πέρα από τα παραπάνω, η έρευνα εντόπισε πάνω από 800 επιβεβαιωμένα έγγραφα αιτήσεων εργασίας (όπως βιογραφικά και συνοδευτικές επιστολές). Μέσω διασταυρώσεων στο LinkedIn και άλλων διαδικτυακών αναζητήσεων, επιβεβαιώθηκε ότι ανήκουν σε πραγματικά πρόσωπα.
Αρκετά από τα βιογραφικά που βρέθηκαν αποκάλυπταν εξαιρετικά ευαίσθητες πληροφορίες, όπως:
- Κατάσταση αναπηρίας
- Αποτελέσματα ελέγχων ποινικού μητρώου
- Ημερομηνίες και τόπους γέννησης εξαρτώμενων μελών
- Φυλή
Συνδέοντας τα βιογραφικά αυτά με την online παρουσία των ατόμων, οι ερευνητές βρήκαν επίσης στοιχεία επικοινωνίας, κυβερνητικούς αριθμούς ταυτοποίησης, φωτογραφίες προσώπου, διευθύνσεις κατοικίας, ακόμα και τα στοιχεία επικοινωνίας των συστάσεών τους.