Immagina delle banche dati con all’interno informazioni relativi al genoma delle varie specie dei viventi di ogni genere e sorta. L’idea è capire come sono strutturati e cercare di avere una capacità di dialogo con coloro i quali sanno scrivere software per interrogare in maniera automatica le banche dati.

Vedremo qualche esempio di qualche banca dati biologica. Poi vedremo la struttura dei database biologici più importanti. Ci poniamo la domanda riguardo al fatto: come è fatto un file che raccoglie informazioni?

L’idea è sempre quello di interfacciarsi con gli informatici. Che cosa intendiamo per database? Archivio computerizzato usato per immaganizzare e organizzare dati. L’organizzazione in cui i dati sono ordinati è fatto in maniera tale da avere indietro i dati al fine di poter estrarre informazioni in maniera precisa, con qualsiasi tipo di domanda. L’organizzazione, la strutturazione e la possibilità di interfacciarsi con esso fanno parte del database. L’obiettivo primario è quello di semplificare la consultazione di documenti o dati, che sarebbe impossibile consultare in altro modo. Immagino codificare il genoma di una persona su carta: sarebbe impossibile. Dobbiamo essere in grado di organizzare correttamente i dati per non avere omonimie o problemi. Tutto finalizzato ad un easy retrieval, in grado di dare informazioni corrette in poco tempo.

L’elemento fondante di un db è la entry, che è riempito secondo i suoi campi da determinati valori. Definiamo le interrogazioni come: query.

Il db ci da anche possibilità di modifica/aggiornamento delle informazioni:

Ottenere tante informazioni da una banca dati è molto utile, ma non esaustivo. Queste informazioni sono discrete, riguardano ambiti diversi. Non c’è un tipo di aggregazione alcuna rispetto alle informazioni ritornate. Sarebbe bello andare a fare knowledge discovery tra pezzi di informazioni diversificate.

Come sono fatti effettivamente i db?

Immaginiamo di avere un documento di testo in cui su ogni riga ho una entry con i vari campi divisi da una virgola. Uso quindi dei separatori le entry degli oggetti. Fare debugging su querydei db non è affatto banale, quindi attento: potresti ritornare delle informazioni che sembrano per altro veritiere.

[28/02/2023]

Posso andare a gestire il mio database attraverso lo strumento del DBMS. Posso fare indicizzazione sui alcune key e farci delle colonne. Posso farmi delle tabelle diversificate per determinate peculiarità di una entry. Possono essere comode per evitare di dovermi leggere tutto un file db. Le interrogazioni le faccio in SQL. Meglio cercare di creare oggetti omogenei, per cui ho modo di seguire le regole che legano i diversi oggetti tra di loro. Sinceramente spiegato di merda

Banche dati biologiche

La prima banca dati biologica fu messa appunto da Margaret Oakley Dayhoff nel 1965 quando pubblicò Atlas of Protein Sequence and Structure. Il suo lavoro è stato creare un atlante di sequenze genetiche. Una proto-bancadati che conteneva 65 sequenze di proteine che le mise in un libro. Era una prima forma di banca dati cartacea.

Nel 1982 l’EMBL rilascia in Heidelberg il EMBL Data Library una serie di sequenze (586) su supporti magnetici, circa 500k paia di basi.

<aside> 💡 EMBL = European Molecular Biology Laboratory

</aside>

Al 2016 il numero di paia di basi caricate nel European Nucleotide Archive conteneva 1*10^13 paia di basi. Che banche dati abbiamo a disposizione al momento? Il modo migliore per andarle a cercare sono i search engine. Oppure mi connetto ad eduroam e uso quello per interfacciarmi con servizi di giornali/riviste a pagamento (tipo Nature). Update sulle banche dati disponibili: The 2023 Nucleic Acids Research Database Issue and the online molecular biology database collection