DETTAGLI SULLA RICERCA
Il progetto gene@home è un’implementazione dell’algoritmo PC-IM, il cui scopo è espandere delle reti di geni, le Gene Regulatory Networks (GRN). Ogni rete è un grafo che specifica le relazioni di causalità all’interno di un insieme di geni, e aiuta a studiare il fenomeno dell’espressione genica: il processo attraverso il quale il DNA viene trascritto in RNA e l’RNA tradotto in proteine. Espandere una GRN significa trovare nuovi geni legati a quelli già esistenti, e portare ad una comprensione più profonda del fenomeno per arrivare a prevederne – ed eventualmente manipolare – i comportamenti.
Il PC-IM testa i geni della pianta Arabidopsis Thaliana, considerata un organismo modello dal punto di vista biologico, e riceve in input una GRN locale – detta Local Gene Network (LGN), una lista di geni candidati per l’espansione e delle informazioni sull’espressione dei dati. Durante la sua esecuzione cerca di stabilire l’esistenza di relazioni causali tra questi geni e la LGN, e restituisce in output la nuova GRN.
Il lavoro dell’algoritmo può essere distinto in cinque passi:
1. Costruzione dei blocchi
I geni candidati per l’espansione vengono partizionati a caso in blocchi non sovrapposti: il motivo è che l’algoritmo risulta più efficiente quando lavora con meno di 1000 variabili, perciò bisogna lavorare con reti di dimensioni non superiori.
Ogni blocco viene fuso con la LGN in input, in modo da poter inferire le relazioni causali, e l’operazione viene ripetuta i volte (dove i è il numero di iterazioni dell’algoritmo).
2. Applicazione del PC
Viene eseguito l’algoritmo PC su ogni blocco, sfruttando i dati sull’espressione genica.
In particolare, il PC (Peter-Clark) è un miglioramento dell’algoritmo SGS, procedimento generale per la scoperta di relazioni di causalità, e trova le dipendenze condizionali di un grafo. Partendo da un grafo completo e non orientato, elimina ricorsivamente gli archi per i quali, date le informazioni in input, riesce a dedurre un legame di indipendenza. Dopodiché prova a orientare gli archi rimasti, cercando relazioni comuni con nodi del grafo, e applicando una serie di regole.
Il risultato è una rete di geni e relazioni, dalla quale il PC-IM preleva le sotto-reti che contengono geni sia vecchi che nuovi.
3. Calcolo delle frequenze
Dalle sotto-reti del passo precedente si crea un’unica lista di espansioni dei geni, e per ogni gene si calcola la frequenza con cui appare.
4. Valutazione delle prestazioni interne
Il PC-IM valuta le sue stesse prestazioni e stabilisce, attraverso le relazioni della LGN, la frequenza necessaria per avere la migliore espansione. Si calcolano i possibili falsi positivi e falsi negativi studiando tre misure di valutazione: i Positive Predictive Value, la Sensitivity e il False Positive Rate. Si costruiscono le curve Precision-Recall e Receive Operating Characteristic, e si restituisce la frequenza più vicina ai valori ideali.
5. Applicazione del taglio delle frequenze
In base ai calcoli delle frequenze, l’algoritmo determina quali geni della lista di espansione sono realmente legati alla LGN in input, e possono venire quindi restituiti come output finale.
Il PC-IM è un algoritmo ancora in fase di studio, ma i risultati preliminari hanno mostrato robustezza e buone prestazioni nell’espansione delle GRN.