Tutti i metodi di confronto delle sequenze sono diventati di uso comune nel corso degli anni. Ad oggi sequenziamo praticamente qualsiasi cosa. Il modo più semplice per fare due paragoni tra le sequenze e vedere dove sta rispetto alla posizione assoluta all’interno del genoma (se so dove sta posso contare il livello di espressione di quel gene se ho sequenziato RNA); praticamente guardare e cercare di capire se sono simili.

Posiziono una sequenza del genoma solamente se è sufficientemente simile rispetto al posto in cui la voglio andare a posizionare. E’ chiaro anche che il confronto che faccio non è necessariamente assoluto, ma solo sufficientemente simile; più simile di tutte le altre all’interno del genoma. Ovviamente sono simili perché ci sono delle mutazioni che posso avere dato qualche flavour (variante) al mio gene. Per quanto riguarda il fatto che sia una somiglianza, ebbene: decido io quanto possa essere tale livello. Posso andare anche a decidere quante mutazioni andare ad accettare. Il problema è comunque quello: come faccio a dire che due sequenze abbiano qualcosa in comune fra di loro?

Non ho un modo a priori. Cosa posso andare a confrontare di due sequenze? Posso andare a confrontare anche la struttura tridimensionale. Potrebbe essere interessante dire che siano collegate se hanno la medesima struttura tridimensionale. Se sono simili o discendono entrambi da una sequenza comune e si sono diversificate in virtù di trasformazioni, piuttosto che di pezzi che sono decaduti o aggiunti durante le duplicazioni o hanno un ruolo o funzione simile/condivisa.

Tipi di similarità:

Non ho una uguaglianza stretta tra similarità e omologia, nel primo caso è una caratteristiche quantitativa, l’altra è una caratteristica qualitativa. In genere parliamo di similarità pensando ad omologia. La ricerca di solito porta verso una ricerca di omologia. Non sappiamo come andare a vedere all’indietro tutte le trasformazioni intercorse durante le evoluzioni, vediamo solamente il presente e fare reverse engineering è difficile e possiamo andare solamente per similarità. E’ un po’ come andare a individuare i fratelli o i parenti ai soliti ignoti.

Untitled

Meno strada ha fatto l’evoluzione più si è conservato il gene ancestrale. Ricostruire il percorso è molto difficile se non impossibile. Ortologhi sono due sequenze con la stessa funzione in due specie diverse. Queste fanno comodo quando devo andare a studiare dei farmaci su degli animali andando a lavorare su quei geni. Paraloghi sono sequenze che si sono differenziate a causa di un evento di duplicazione, all’interno dello stesso macro organismo. Questo è molto comodo per andare a vedere le origini del virus dagli animali. Leggi Spillover, David. Tutto un discorso su SARS e SARS-COV2, morale: viene tutto dalla Cina, anche i virus. Le sequenze omologhe sono spesso simili sulla scorta di qualche nostro criterio di similitudine che gli abbiamo dati noi. Usiamo questo strumento perché è quello più semplice di andare a costruire. Andiamo a lavorare con la struttura 3D di tutta la struttura del DNA. Un allineamento è una mutua organizzazione di 2 o più sequenze e può essere (struttura spesso è significativo del funzionamento):

L’ordinamento che definisco ottimo è quello che mi mostra la maggior parte delle corrispondenze ed il minor numero di differenze. Se uso la parola casa, quali sono le parole simile ad essa? Ne ho tante che si allineano in maniera ottimale. Le sequenze più simili probabilmente condividono qualcosa di funzionale o strutturale.

Untitled

Ogni * è una lettera uguale. I - sono spazi (se ci sono e nelle slides ci sono), che mi segnalano il fatto che non so che sia successo effettivamente. Dovrei fare un confronto mettendogli dentro tutti i cambiamenti che gli sono successi da quando erano una stessa sequenza. Uso i trattini come padding, li uso per spaziare e non so dove metterli ma so di doverli mettere.

Non ho divieti teorici nel confronto, ma per trovare quelle ottime, devo massimizzare le similitudini e devo dargli un punteggio in base agli asterischi essenzialmente.

Untitled

Potrei avere anche dei pari merito e li considero entrambi essenzialmente. Se cambio lo schema di punteggio poi ho il problema che cambia anche il ranking. Dobbiamo considerare bene anche lo schema di punteggio per andare a capire bene come fare tutto quanto.

[04-04-2023]

Il metodo più semplice è calcolare una distanza tra stringhe. Il confronto sarebbe cercare di allinearla una sull’altra e vedere quante lettere sono conservate. L’idea sarebbe materialmente andare ad incolonnare le stringhe in modo di avere quanti più match possibili. Il problema è che le sequenze possono avere lunghezze diverse e diventa difficile andare a sistemarla l’una rispetto all’altra per vedere la distanza di hamming. Lunghezza diversa di sequenze mi crea problemi nella ricerca della disposizione opportuna.