Solito discorso introduttivo su cosa sarebbe un algoritmo e riguardo i costi computazionali e anche utilizzo di memoria durante il suo funzionamento.


[20-03-2023]

Ancora discorso riguardo ai compilatori

Identification of sequence patterns

All'inizio potevo fare ricerca unicamente andandomi a vedere tutti quanti gli elementi del DNA.

Untitled

La prima domanda fu capire se ci fossero, dove e quali fossero gli elementi funzionali che la cellula sfruttava per andare a regolare tutte le istruzioni presenti all'interno del genoma. Per la cellula andare a spacchettare il DNA è tutto quanto noto ovviamente e funziona tutto quanto in automatico. Questo vuol dire che il DNA è intriso di segnali che servono per svolgere tutta una serie di operazioni importanti per la cellula. Tutto quanto avviene modificando strutturalmente il DNA. Si è notato che c’è memoria delle strutture del DNA. All'interno delle cellule è possibile fare alterazioni o follie senza andare a intaccare le strutture fondamentali. Questi pattern fondamentali, questi motif sono piccole successioni di nucleotidi o aminoacidi che hanno un qualche significato biologico. Si considera che essendo regioni importanti sono altamente conservate e altamente riproducibili. C’è una fortissima ridondanza. La conservazione dei pattern è sostanziale ma non troppo particolare. L’idea è che abbiamo una sequenza e abbiamo dei pattern che si ripetono che danno in un certo senso stabilità al DNA, ma la sfida è andare a trovare pattern senza sapere quali siano!!! Come posso andare ad operare? Come costruisco qualcosa partendo dalla sequenza di DNA. Abbiamo anche il problema ce l’evoluzione introduce delle modifiche e delle variazioni sul tema. Abbiamo quindi pattern imprecisi perché ho delle variazioni importanti.

Pattern Detection

Devo andare a fare predizioni in tal senso. Globalmente posso andare ad approcciare il problema in due modi:

  1. completamente avulso alla conoscenza pregressa, avendo solamente in input il DNA in sequenza
  1. uso la conoscenza acquisita nel tempo e la sfrutto insieme all'analisi della frequenza: deduco la presenza o meno dalla comparazione con la sequenza con altre omologhe.

Un argomento di estremo interesse sarebbe quello di andare a trovare motif. Cioè andare a vedere dei dettagli di un qualsiasi fenotipo cellulare. Le regioni più interessate sono quelle in cui ho trovato il pattern identico e poi posso andare a lavorare in termini di numero di lettere che tolleriamo per poter andare a considerare un oggetto di ricerca.

Un’idea potrebbe anche essere andare a fare un meta pattern in cui ho una analisi di frequenza per determinate lettere. Un’idea sarebbe andare a fare una matrice che ha sulle righe le diverse basi e sulle colonne la posizione. All'interno la popolo con la probabilità che quell'elemento si trovi in quella posizione, una sorta di matrice di un grafo, non esattamente ma proprio. Questo sarebbe il position weight matrices.


[21-03-2021]

la prima parte era in consiglio, devo integrare con qualche appunto

Posso usare situazioni in cui non trovo codone di stop, come zone che vengono lette → regioni di lettura aperte. Manca un continuo stop così come dovrebbe succedere. La cosa più semplice per codificare la presenza di possibili regioni del genere è quella di leggere il genoma come una sequenza di n/3 codoni. I 3 codoni di stop rompono al sequenza in segmenti che sono ciascuno compresa tra due codoni di stop purché il segmento abbia una lunghezza determinata … Potenzialmente potrei ottenere qualche prodotto proteico tra il codone di start e il codone di stop, di una lunghezza maggiore di quella che mi attenderei se avessi una distribuzione casuale dei codoni di stop. Se vogliamo posizionare i diversi codoni e immaginiamo di averla appena ottenuto dal sequenzializzatore, non sappiamo se il primo nucletoide che troviamo è il primo del codone oppure no e dobbiamo leggere 3 volte il codone per provare a vedere se il primo amminoacido sia appartenente al primo codone oppure no.

Data una sequenza di DNA troviamo i codoni di stop e poi cerchiamo i codoni di start in regioni sufficiente ampie e poi così indichiamo la presenza di un gene. Non è detto che abbiamo una trascrizione potrei avere una regione depleta. Accettiamo di poter avere un errore. Potrei avere una anomalia a fronte di nessun risultato prodotto. Se mancano i codoni di stop potrebbe darci una dimensione per capire se alla fine quella regione è effettivamente usata. Abbiamo regioni che sono sicuramente più usati e abbiamo amminoacidi che possono essere prodotti da più codoni. All'interno delle open reading frame potrei avere più codoni di start. Mi aspetto che molte delle zone che ho indicati all’interno della sequenza sono falsi motivi, ma nei molti risultati magari ho qualcosa di buono. Se impongo una larghezza di banda molto larga rischio di tralasciare delle zone piccole che però erano significative a livello biologico. Come faccio a scegliere una soglia ottimale? Ovviamente questo test non da una probabilità al 100%, ma ho una probabilità di successo. L’incertezza = soglia di intercettabilità. Uso le lettere per giocare con le sequenze e le distribuzioni. Il gene va dallo start allo stato successivo.

Il metodo e attivo, serve per ridverere. open read frames. Prova ORDINFD u https://www.ncbi.nihgov/orffinder