O echipă de cercetători de la universitățile Johns Hopkins University și Memorial Sloan Kettering Cancer Center, avându-l ca și colaborator pe profesorul român Victor Velculescu, a investigat utilizarea inteligenței artificiale pentru clasificarea mutațiilor somatice, rezultatele acestui studiu fiind publicate în prestigiosul jurnal Science Translational Medicine la 5 septembrie 2018.
Ce sunt mutațiile somatice și de ce sunt importante ele? Mutațiile somatice sunt anomalii ale secvenței de ADN care pot, în anumite cazuri, să cauzeze cancer sau alte boli. Identificarea corectă a mutațiilor somatice este esențială pentru diagnosticarea și tratamentul celor mai mulți pacienți cu cancer.
Cum sunt identificate mutațiile somatice? Până în prezent au fost dezvoltate mai multe metode de identificare și caracterizare a mutațiile somatice, dar care au fost specifice unui anumit tip de cancer sau nu au primit aprobare pentru a fi folosite pentru diagnosticarea mutațiilor din tumori de diferite tipuri. Autorii articolului au dezvoltat o nouă metodă de identificare a mutațiilor somatice bazată pe utilizarea de algoritmi de învățare automată, numită Cerebro.
De unde învață Cerebro? Ca și orice algoritm de învățare, Cerebro are nevoie de date din care să poată învăța. Autorii propun ca și sursă de învățare pentru pentru algoritm date de secvențiere, numite next-generation cancer sequence data. Datele de secvențiere au fost obținute din probe de sânge din care a fost izolat ADN. Într-o parte din probe s-au introdus in silico mai bine de 30.000 de mutații somatice de diferite tipuri: înlocuiri, inserări, ștergeri din secvența normală de ADN, acestea oferind algoritmului exemple de clasificare pozitivă a mutațiilor somatice. În același timp, au fost adaugate ca și exemple pentru Cerebro aproximativ 2 milioane de erori si artefacte ale secvențierii pentru a învăța ce nu este o mutație somatică. Partea din probe în care nu s-au introdus mutații a fost folosită pentru evaluarea metodei propuse.
Cum învață Cerebro? Metoda propusă folosește un tip de algoritmi des întâlniți și folosiți printre algoritmii de învățare automată și anume decision trees. Acești algoritmi au ca și scop clasificarea obiectelor în funcție de caracteristicile pe care le are un obiect. Un decision tree poate fi imaginat ca și un pom cu multe ramuri, fiecare nod luând o decizie despre o însușire a obiectului. De exemplu, dacă încercăm să prezicem vremea putem avea noduri în pom care întreabă dacă este cald sau frig sau dacă plouă sau nu, etc. Cerebro folosește un tip special de decision trees, numit random forest în care fiecare pom are o anumită funcție anume în procesul de clasificare. O privire de ansamblu asupra metodei este exemplificată de către autori în Figura 1 de mai jos.
Cum poate ajuta Cerebro? O serie de studii au fost concepute pentru a evalua performanța algoritmului Cerebro și a o compara cu alte metode folosite în cercetare și analiză clinică de genom. Sensibilitatea (câți dintre pacienți cu mutații somatice au fost identificați) a fost de 97% în comparație cu o sensibilitate variabilă de 90-99%. Precizia (rata de predicție corectă) a crescut de la 34-92% la 98%. Mai mult, Cerebro a demonstrat că poate clasifica cu precizie pacienții în funcție de răspunsul acestora la imunoterapie ceea ce poate ajuta în tratamentul paciențiilor.