Απευθείας μετάφραση εγκεφαλικών σημάτων σε ομιλία

Ένα σύστημα το οποίο μεταφράζει τη σκέψη απευθείας σε αναγνωρίσιμη ομιλία ανέπτυξαν ερευνητές του Columbia University in the City of New York.
Σύμφωνα με το πανεπιστήμιο, πρόκειται για μια πολύ σημαντική επιστημονική πρωτιά: Παρακολουθώντας την εγκεφαλική δραστηριότητα κάποιου, η τεχνολογία αυτή μπορεί να αναδομήσει τις λέξεις που ακούει με άνευ προηγουμένου ακρίβεια, ανοίγοντας δρόμους για απευθείας επικοινωνία υπολογιστών με τον εγκέφαλο και αξιοποιώντας τις δυνατότητες των συνθετών φωνής και της τεχνητής νοημοσύνης. Επίσης, εμφανώς πρόκειται για μια πολύ σημαντική εξέλιξη για ανθρώπους οι οποίοι δεν έχουν δυνατότητα ομιλίας (πχ ασθενείς με ALS), οι οποίοι έτσι θα μπορούν να επικοινωνούν με τον έξω κόσμο.
Τα ευρήματα της έρευνας δημοσιεύτηκαν στο Scientific Reports. «Οι φωνές μας βοηθούν να διασυνδεόμαστε με τους φίλους μας, την οικογένειά μας και τον κόσμο γύρω μας, και για αυτό το να χάνει κανείς τη δύναμη της φωνής του εξαιτίας τραυματισμού ή ασθένειας είναι τρομερό» λέει ο Νίμα Μεσγκαράνι, senior author της έρευνας και επικεφαλής ερευνητής στο Mortimer B. Zuckerman Mind Brain Behavior Institute. Όπως εξηγεί, «με τη σημερινή μελέτη, έχουμε τη δυνατότητα να αποκαταστήσουμε αυτή τη δύναμη. Δείξαμε πως, με τη σωστή τεχνολογία, οι σκέψεις αυτών των ανθρώπων θα μπορούσαν να αποκωδικοποιηθούν και να γίνουν κατανοητές από οποιονδήποτε ακροατή».
Δεκαετίες ερευνών έχουν δείξει πως όταν οι άνθρωποι μιλούν – ή φαντάζονται πως μιλούν – εμφανίζονται μοτίβα δραστηριότητας στον εγκέφαλό τους. Επίσης, αναγνωρίσιμα μοτίβα σημάτων εμφανίζονται και όταν ακούμε κάποιον να μιλάει ή φανταζόμαστε πως ακούμε. Ειδικοί προσπαθούν να καταγράψουν και να αποκωδικοποιήσουν αυτά τα μοτίβα, διαβλέποντας ένα μέλλον όπου οι σκέψεις δεν μένουν κρυμμένες μέσα στον εγκέφαλο, μα μεταφράζονται κατά βούληση σε προφορική ομιλία. Ωστόσο, αυτό αποτελεί κατά κανόνα μεγάλη πρόκληση. Πρώιμες προσπάθειες για αποκωδικοποίηση των σημάτων από τον Μεσγκαράνι και άλλους επικεντρώνονταν σε απλά μοντέλα υπολογιστή που αναλύουν φασματογράμματα (οπτικές απεικονίσεις συχνοτήτων ήχου).
Ωστόσο, η προσέγγιση αυτή δεν απέδωσε καρπούς, οπότε και οι ερευνητές στράφηκαν στο vocoder: Έναν αλγόριθμο υπολογιστή που μπορεί να συνθέτει ομιλία αφού πρώτα «εκπαιδευτεί» σε ηχογραφήσεις ανθρώπων που μιλούν. «Είναι η ίδια τεχνολογία που χρησιμοποιείται από το Amazon Echo και το Apple Siri για να δίνουν φωνητικές απαντήσεις στις ερωτήσεις μας» εξηγεί ο Μεσγκαράνι.
Για να «εκπαιδευτεί» το vocoder να ερμηνεύει εγκεφαλική δραστηριότητα, ο Μεσγκαράνι συνεργάστηκε με τον Ασές Ντινές Μέχτα, νευροχειρουργό στο Northwell Health Physician Partners Neuroscience Institute, ο οποίος ασχολείται με άτομα που πάσχουν από επιληψία. «Ρωτήσαμε ασθενείς με επιληψία που υποβάλλονταν σε εγχειρήσεις εγκεφάλου να ακούσουν προτάσεις από διαφορετικά άτομα, ενώ μετρούσαμε τα μοτίβα εγκεφαλικής δραστηριότητας» λέει ο Μεσγκαράνι. «Αυτά τα νευρωνικά μοτίβα εκπαίδευσαν το vocoder» ανέφερε.
Στη συνέχεια, οι ερευνητές ζήτησαν από αυτούς τους ασθενείς να ακούσουν «απαγγελία» ψηφίων από το 0 ως το 9, καταγράφοντας εγκεφαλικά σήματα που μπορούσαν να περαστούν από το vocoder. Ο ήχος που παρήγε το vocoder, ανταποκρινόμενο σε αυτά τα σήματα, αναλύθηκε και «καθαρίστηκε» από νευρωνικά δίκτυα (ένα είδος τεχνητής νοημοσύνης που μιμείται τη δομή των νευρώνων στον εγκέφαλο). Το αποτέλεσμα ήταν μια «ρομποτική» φωνή που απήγγειλε μια αλληλουχία αριθμών. «Διαπιστώσαμε πως ήταν δυνατόν να κατανοούνται και να επαναλαμβάνονται οι ήχοι από ανθρώπους στο 75% των περιπτώσεων, που είναι πολύ πάνω από προηγούμενες προσπάθειες» λέει ο Μεσγκαράνι.
Το επόμενο βήμα είναι η δοκιμή πιο πολύπλοκων λέξεων και προτάσεων, καθώς και η διεξαγωγή των ίδιων τεστ σε εγκεφαλικά σήματα που προκύπτουν όταν κάποιος μιλά ή φαντάζεται πως μιλάει. Εν τέλει, οι ερευνητές ευελπιστούν στη δημιουργία ενός εμφυτεύματος που θα μπορεί να μεταφράζει τις σκέψεις απευθείας σε λέξεις.

Σχετικά Νέα