Storia, design e implementazioni del linguaggio SQL

SQL (Structured Query Language) è il linguaggio di riferimento per definire, interrogare e manipolare dati in sistemi di gestione di basi di dati relazionali (RDBMS) e, con estensioni e dialetti, anche in piattaforme analitiche e data warehouse. La sua longevità deriva da un equilibrio raro: un modello teorico solido, una sintassi relativamente accessibile e una capacità di adattarsi nel tempo a nuove esigenze (transazioni, sicurezza, analisi, semi-strutturato, cloud). Questo articolo ripercorre le tappe storiche principali, spiega le scelte di design che lo caratterizzano e descrive come viene implementato nei DBMS moderni, con esempi concreti.

1. Origini e evoluzione storica

1.1 Dal modello relazionale alle prime query ad alto livello

La base concettuale di SQL è il modello relazionale: dati rappresentati come relazioni (tabelle) su cui eseguire operazioni dichiarative. Negli anni Settanta i ricercatori iniziarono a sperimentare linguaggi che permettessero di esprimere “che cosa” ottenere, lasciando al sistema “come” eseguire la richiesta. In questo contesto nacque l’idea di un linguaggio orientato agli insiemi (set-based) che potesse trasformare l’accesso ai dati da procedurale a dichiarativo.

1.2 SEQUEL/SQL e la diffusione commerciale

I primi prototipi industriali portarono alla definizione di un linguaggio chiamato inizialmente SEQUEL (poi SQL), pensato per interrogare database relazionali in modo leggibile e relativamente vicino all’inglese tecnico. La commercializzazione dei primi RDBMS rese SQL un punto di convergenza: clienti e vendor cercavano interoperabilità e portabilità, e SQL offriva una base comune pur con differenze tra implementazioni.

1.3 Standardizzazione: ANSI/ISO e crescita del linguaggio

Con l’adozione crescente, SQL venne standardizzato da ANSI e ISO. Lo standard non è un documento statico: nel tempo sono stati aggiunti costrutti per l’integrità (vincoli), transazioni e isolamento, viste, trigger, funzioni, procedure, gestione dei permessi, e più recentemente funzionalità analitiche (funzioni finestra), ricorsione (CTE), e supporto a JSON e altri tipi complessi. Nella pratica, molti sistemi implementano un sottoinsieme più estensioni proprietarie.

1.4 Dall’OLTP all’analitica e al cloud

SQL è nato in un contesto transazionale (OLTP), ma ha acquisito un ruolo centrale anche nell’analisi (OLAP). L’arrivo di colonne, vettorizzazione, esecuzione distribuita e architetture cloud ha cambiato radicalmente l’esecuzione interna, senza cambiare l’interfaccia principale: la query SQL rimane l’unità di programmazione, mentre sotto il cofano il sistema compila, ottimizza e pianifica.

2. Il design di SQL

2.1 Dichiarativo e basato su insiemi

La caratteristica più importante di SQL è la natura dichiarativa: l’utente descrive il risultato desiderato, non la sequenza di passi per ottenerlo. Ciò abilita ottimizzazioni aggressive: il DBMS può riordinare join, scegliere indici, spingere filtri verso le fonti, parallelizzare e cambiare strategie di esecuzione senza modificare la query.

2.2 Algebra relazionale e calcolo relazionale: il “motore teorico”

Molte trasformazioni che un ottimizzatore esegue si basano su equivalenze dell’algebra relazionale: selezioni e proiezioni che si possono spostare, join associativi e commutativi (con cautela rispetto a outer join), eliminazione di subquery, e riscritture con semijoin/antijoin. Anche se SQL non coincide perfettamente con l’algebra relazionale pura, l’idea di operare su relazioni e produrre relazioni resta centrale.

2.3 DDL, DML e DCL: tre anime in uno stesso linguaggio

DDL (Data Definition Language): definisce strutture come tabelle, indici, viste, vincoli.
DML (Data Manipulation Language): inserisce e modifica dati (SELECT, INSERT, UPDATE, DELETE, MERGE).
DCL (Data Control Language): gestisce privilegi e sicurezza (GRANT, REVOKE), spesso con T-SQL/PL/SQL.

Questa unificazione ha pro e contro: aumenta la coerenza dell’ecosistema, ma rende lo standard molto esteso e apre la strada a dialetti differenti.

2.4 Tipi di dati, NULL e logica a tre valori

SQL introduce il concetto di NULL per rappresentare assenza di valore o valore sconosciuto. Da qui deriva la logica a tre valori: TRUE, FALSE, UNKNOWN. È un punto spesso frainteso e causa frequente di bug. Ad esempio, un confronto con NULL non è mai TRUE.

-- Esempi di comportamento di NULL
SELECT
  (NULL = NULL)      AS eq_null,   -- restituisce NULL (UNKNOWN)
  (NULL IS NULL)     AS is_null,   -- restituisce TRUE
  (NULL <> 10)       AS ne_ten,    -- restituisce NULL (UNKNOWN)
  COALESCE(NULL, 0)  AS coalesced; -- restituisce 0

Le implicazioni sono rilevanti in filtri e join. Un WHERE col = NULL non selezionerà righe; occorre usare IS NULL. Inoltre, la presenza di NULL può influire su aggregazioni (ad esempio COUNT(col) ignora i NULL).

2.5 Join: espressività e complessità

I join sono il cuore pratico di SQL. Le varianti principali sono INNER JOIN, LEFT/RIGHT/FULL OUTER JOIN, CROSS JOIN e SELF JOIN. La semantica degli outer join introduce righe “riempite” con NULL, e richiede attenzione quando si applicano condizioni nel WHERE (che può annullare l’effetto dell’outer join) rispetto a condizioni nel ON.

-- Differenza tra filtro in ON e in WHERE in presenza di LEFT JOIN
SELECT c.id, c.nome, o.id AS ordine_id
FROM clienti AS c
LEFT JOIN ordini AS o
  ON o.cliente_id = c.id
 AND o.stato = 'PAGATO';   -- qui preserva i clienti senza ordini pagati

SELECT c.id, c.nome, o.id AS ordine_id
FROM clienti AS c
LEFT JOIN ordini AS o
  ON o.cliente_id = c.id
WHERE o.stato = 'PAGATO';  -- qui elimina i clienti senza ordini pagati (effetto simile a INNER JOIN)

2.6 Aggregazioni, GROUP BY e funzioni finestra

Le aggregazioni (SUM, AVG, COUNT, MIN, MAX) comprimono righe in gruppi. Le funzioni finestra (window functions) permettono analisi senza collassare le righe, applicando calcoli su una “finestra” definita da OVER (PARTITION BY ... ORDER BY ...).

-- Ranking e medie mobili con funzioni finestra
SELECT
  cliente_id,
  data_ordine,
  totale,
  ROW_NUMBER() OVER (PARTITION BY cliente_id ORDER BY data_ordine) AS n_ordine,
  AVG(totale) OVER (
    PARTITION BY cliente_id
    ORDER BY data_ordine
    ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
  ) AS media_mobile_3
FROM ordini;

2.7 CTE e ricorsione

Le Common Table Expressions rendono le query più leggibili e favoriscono la decomposizione logica. Le CTE ricorsive abilitano la navigazione di gerarchie (ad esempio alberi organizzativi) senza ricorrere a procedure esterne.

-- CTE ricorsiva per esplorare una gerarchia (es. organigramma)
WITH RECURSIVE gerarchia AS (
  SELECT id, manager_id, nome, 0 AS livello
  FROM dipendenti
  WHERE manager_id IS NULL
  UNION ALL
  SELECT d.id, d.manager_id, d.nome, g.livello + 1
  FROM dipendenti d
  JOIN gerarchia g ON d.manager_id = g.id
)
SELECT * FROM gerarchia
ORDER BY livello, id;

2.8 Standard vs dialetti

Nella pratica, SQL è una famiglia di dialetti: differenze in tipi (DATE/TIMESTAMP), stringhe (concatenazione, funzioni), paginazione (LIMIT/OFFSET vs FETCH FIRST), upsert (MERGE, ON CONFLICT, INSERT ... ON DUPLICATE KEY), e linguaggi procedurali integrati. Capire lo standard aiuta, ma conoscere il dialetto del proprio DBMS è essenziale.

3. Implementazioni: come un DBMS esegue SQL

3.1 Dal testo al piano: parsing e analisi semantica

Una query SQL attraversa tipicamente queste fasi:

Parsing: tokenizzazione e costruzione dell’albero sintattico (AST).
Analisi semantica: risoluzione di nomi (tabelle, colonne), controllo dei tipi, permessi, espansione di viste e CTE.
Rappresentazione logica: trasformazione in operatori relazionali (selezione, proiezione, join, aggregazione).
Ottimizzazione: riscritture equivalenti e scelta del piano fisico.
Esecuzione: interpretazione o compilazione del piano e accesso a buffer, storage, rete.

3.2 Ottimizzatore: regole, costi e statistiche

L’ottimizzazione moderna combina:

Ottimizzazione basata su regole (rule-based): riscritture “sempre valide” (spostare filtri, eliminare join inutili).
Ottimizzazione basata su costi (cost-based): esplora piani alternativi e sceglie quello stimato più economico.
Statistiche: cardinalità, istogrammi, correlazioni, valori distinti; alimentano la stima dei costi.

La qualità delle statistiche è spesso decisiva. Tabelle molto aggiornate ma con statistiche obsolete possono produrre piani subottimali (ad esempio join nell’ordine sbagliato o scelta errata dell’indice).

3.3 Metodi di accesso: scansioni e indici

I DBMS implementano diverse strategie di accesso:

Sequential/Full Scan: legge l’intera tabella; utile quando la selettività del filtro è bassa.
Index Scan: usa un indice (spesso B-tree) per trovare rapidamente le righe.
Bitmap Index Scan (in alcuni sistemi): combina più indici con operazioni bitwise.
Columnar Scan (colonnare): legge solo le colonne necessarie, comprimendo e vettorizzando.

-- Indice tipico per ricerche e ordinamenti su data
CREATE INDEX idx_ordini_data ON ordini (data_ordine);

-- Query che può beneficiarne
SELECT *
FROM ordini
WHERE data_ordine >= DATE '2025-01-01'
ORDER BY data_ordine;

3.4 Algoritmi di join: nested loop, hash join, merge join

Tre famiglie classiche:

Nested Loop Join: per ogni riga del lato esterno cerca match nel lato interno (ideale con indice e set piccolo).
Hash Join: costruisce una tabella hash su una relazione e sonda con l’altra (ottimo per grandi join equi-join).
Merge Join: richiede input ordinati e li scorre in parallelo (efficiente se i dati sono già ordinati o ordinabili bene).

La scelta dipende da cardinalità stimate, disponibilità di indici, memoria e distribuzione dei valori.

3.5 Transazioni, isolamento e concorrenza

SQL opera spesso in contesti ACID. L’implementazione può basarsi su:

Locking (blocchi): condivisi/esclusivi, a livello di riga/pagina/tabella; può causare attese e deadlock.
MVCC (Multi-Version Concurrency Control): mantiene versioni dei record per permettere letture consistenti senza bloccare scritture, con costi di gestione delle versioni e di vacuum/garbage collection.

I livelli di isolamento (READ COMMITTED, REPEATABLE READ, SERIALIZABLE) definiscono quali anomalie sono consentite. Il comportamento preciso varia tra DBMS, soprattutto su SERIALIZABLE e su come vengono gestite le letture consistenti.

3.6 Compilazione, interpretazione e JIT

Alcuni DBMS eseguono piani interpretandoli, altri compilano parti del piano (o espressioni) in codice nativo, anche con JIT. In ambito analitico, la compilazione e la vettorizzazione riducono overhead per riga e aumentano throughput su colonne compresse.

4. Dialetti e famiglie di DBMS

4.1 PostgreSQL

PostgreSQL è noto per l’aderenza allo standard (nei limiti pratici) e per estensioni potenti: tipi definiti dall’utente, indici avanzati (GiST, GIN), CTE ricorsive mature, funzioni e linguaggi procedurali (PL/pgSQL). Usa MVCC e un ottimizzatore cost-based con statistiche e istogrammi.

4.2 MySQL e MariaDB

MySQL (e il fork MariaDB) è diffuso in contesti web. Il comportamento dipende dal motore di storage (InnoDB è il più comune, con MVCC e transazioni). I dialetti includono specifiche per limitazione/paginazione e funzioni stringa/date tipiche dell’ecosistema.

4.3 Oracle Database

Oracle ha un dialetto SQL ricco, con PL/SQL come linguaggio procedurale integrato e un ottimizzatore sofisticato (cost-based) che da decenni incorpora molte tecniche avanzate. In contesti enterprise è comune trovare funzionalità robuste per partizionamento, gestione di grandi volumi e tuning.

4.4 SQL Server e T-SQL

Microsoft SQL Server usa T-SQL per estensioni procedurali e amministrative. Offre strumenti integrati per gestione e monitoraggio, e un’implementazione solida di funzioni finestra e piani paralleli. La sintassi per paginazione e alcune funzioni differiscono da altri DBMS.

4.5 SQLite

SQLite implementa un sottoinsieme pragmatico di SQL in una libreria embedded. È molto usato su dispositivi mobili, applicazioni desktop e tooling. Il modello di concorrenza e alcune funzionalità avanzate (ad esempio certe DDL) sono più limitate rispetto a server RDBMS, ma l’affidabilità e la semplicità d’integrazione lo rendono centrale in molti progetti.

4.6 Data warehouse e motori analitici

Nei data warehouse, SQL è spesso il front-end dichiarativo su esecuzioni distribuite, colonnari e massivamente parallele. Qui contano scansioni su grandi volumi, compressione, statistiche su colonne, e ottimizzazioni per aggregazioni e join su cluster. I dialetti includono funzioni specifiche per semi-strutturato (JSON), UDF e orchestrazione di pipeline.

5. Implementare SQL: componenti architetturali tipici

5.1 Catalogo e metadati

Ogni DBMS mantiene un catalogo: definizioni di tabelle, colonne, vincoli, indici, viste, utenti, privilegi, dipendenze. La risoluzione dei nomi durante l’analisi semantica e molte ottimizzazioni dipendono dal catalogo.

5.2 Storage e gestione pagine

Nei sistemi row-store, le righe sono memorizzate in pagine con strutture che favoriscono insert/update e accesso per chiave. Nei column-store, le colonne sono segmentate e compresse, ottimizzate per scansioni e aggregazioni. In entrambi i casi, il buffer manager e la strategia di caching influenzano drasticamente le prestazioni.

5.3 Logging e recovery

Per garantire durabilità, i DBMS adottano tecniche come write-ahead logging (WAL): prima di rendere persistente una modifica ai dati, viene persistito un record di log che consente recovery dopo crash. La forma precisa varia, ma l’obiettivo è lo stesso: ripristinare uno stato consistente rispettando le transazioni.

5.4 Esecutore e operatori fisici

L’esecutore implementa operatori fisici come scan, join, sort, aggregate, e li combina nel piano. In molte implementazioni, ogni operatore produce righe “a richiesta” (pull model) oppure spinge batch di righe (push model o vettorizzazione). Le scelte incidono su CPU cache, parallelismo e latenza.

5.5 Parallelismo e distribuzione

Nei sistemi moderni è comune eseguire una query in parallelo. Il DBMS può:

partizionare scansioni e aggregazioni su thread o nodi;
distribuire join con shuffle dei dati per chiave;
pianificare fasi (stage) con scambio dati via rete o memoria condivisa;
riutilizzare risultati intermedi (materializzazione, caching, reuse di CTE/viste).

6. Esempio end-to-end: da schema a query ottimizzabile

Un esempio completo che mostra come scelte di schema e indici influenzino query tipiche (cliente con totale ordini):

-- Schema minimo
CREATE TABLE clienti (
  id        BIGINT PRIMARY KEY,
  nome      TEXT NOT NULL,
  paese     TEXT NOT NULL
);

CREATE TABLE ordini (
  id          BIGINT PRIMARY KEY,
  cliente_id  BIGINT NOT NULL REFERENCES clienti(id),
  data_ordine DATE NOT NULL,
  totale      NUMERIC(12,2) NOT NULL
);

-- Indice utile per join e filtri per data
CREATE INDEX idx_ordini_cliente_data ON ordini (cliente_id, data_ordine);

-- Query: totale per cliente in un intervallo
SELECT
  c.id,
  c.nome,
  SUM(o.totale) AS totale_periodo
FROM clienti c
JOIN ordini o ON o.cliente_id = c.id
WHERE o.data_ordine >= DATE '2025-01-01'
  AND o.data_ordine <  DATE '2026-01-01'
GROUP BY c.id, c.nome
ORDER BY totale_periodo DESC;

L’ottimizzatore può scegliere un index range scan su idx_ordini_cliente_data, stimare la selettività del filtro per data e decidere la strategia di join e aggregazione (hash aggregate o sort + group). In un sistema colonnare, potrebbe invece fare una scan delle colonne coinvolte e aggregare in modo vettorizzato.

7. Limiti, miti e buone pratiche

7.1 SQL non è “solo SELECT”

In produzione, integrità e governance contano quanto le query: vincoli, chiavi esterne, transazioni, permessi, audit, e migrazioni schema sono parti del lavoro quotidiano con SQL.

7.2 “Il DB farà sempre la cosa giusta” è un mito

Gli ottimizzatori sono potenti, ma dipendono da statistiche, da limiti di esplorazione del search space e da ipotesi. Query riscritte per chiarezza (CTE, viste) possono talvolta impedire ottimizzazioni in certi sistemi, oppure forzare materializzazioni. È importante misurare, leggere i piani e aggiornare statistiche.

7.3 Buone pratiche sintetiche

Modellare chiavi primarie e vincoli: migliorano integrità e spesso prestazioni.
Indicizzare in base ai pattern di query reali (filtri, join, ordinamenti), evitando indici ridondanti.
Gestire NULL con attenzione in filtri e join.
Preferire operazioni set-based a loop applicativi quando possibile.
Usare funzioni finestra per analisi senza subquery complesse.
Verificare piani e statistiche quando le performance degradano.

Conclusione

SQL è sopravvissuto a decenni di cambiamenti tecnologici perché separa l’intento (la query) dall’esecuzione (il piano), consentendo ai DBMS di evolvere internamente mantenendo un’interfaccia stabile. La sua storia è una storia di standardizzazione imperfetta ma efficace, il suo design bilancia teoria relazionale e pragmatismo, e le sue implementazioni moderne trasformano stringhe di testo in piani ottimizzati che sfruttano indici, parallelismo, transazioni e strategie di esecuzione sofisticate. Capire questi tre livelli (storia, design, implementazione) aiuta a scrivere SQL più corretto, portabile e performante.