20 dicembre 2021

I gruppi di acquisizione (capturing group)

Una parte del pattern puÃ² essere racchiusa tra parentesi (...), diventando cosÃ¬ un â€œgruppo di acquisizioneâ€ (capturing group).

CiÃ² comporta due conseguenze:

Possiamo acquisire una parte della corrispondenza come elemento separato allâ€™interno di un array di risultati.
Se poniamo un quantificatore dopo le parentesi, questo si applica allâ€™intero gruppo di acquisizione.

Esempi

Vediamo come operano le parentesi attraverso degli esempi.

Esempio: gogogo

Senza parentesi, il pattern go+ significa: il carattere g seguito da o ripetuto una o piÃ¹ volte. Per esempio goooo o gooooooooo.

Le parentesi raggruppano i caratteri, pertanto (go)+ significa go, gogo, gogogo e cosÃ¬ via.

alert( 'Gogogo now!'.match(/(go)+/ig) ); // "Gogogo"

Esempio: dominio

Facciamo un esempio un poâ€™ piÃ¹ complesso, unâ€™espressione regolare per cercare il dominio di un sito.

Per esempio:

          mail.com
users.mail.com
smith.users.mail.com
        

Come possiamo vedere, un dominio consiste in parole ripetute, un punto segue ciascuna parola tranne lâ€™ultima.

Tradotto in unâ€™espressione regolare diventa (\w+\.)+\w+:

let regexp = /(\w+\.)+\w+/g;

alert( "site.com my.site.com".match(regexp) ); // site.com,my.site.com

La ricerca funziona, ma il pattern non trova riscontro con domini contenenti un trattino, es. my-site.com, perchÃ© il trattino non appartiene alla classe \w.

Possiamo correggere il tiro rimpiazzando \w con [\w-] in ogni parola eccetto lâ€™ultima: ([\w-]+\.)+\w+.

Esempio: email

Il precedente esempio puÃ² essere esteso. A partire da questo possiamo creare unâ€™espressione regolare per le email.

Il formato delle email Ã¨: name@domain. Qualsiasi parola puÃ² essere â€œnameâ€, sono consentiti trattini e punti. Lâ€™espressione regolare diventa [-.\w]+.

Ecco il pattern:

let regexp = /[-.\w]+@([\w-]+\.)+[\w-]+/g;

alert("[email protected] @ [email protected]".match(regexp)); // [email protected], [email protected]

Questa regexp non Ã¨ perfetta, ma per lo piÃ¹ funziona e aiuta a correggere errori di battitura accidentali. Lâ€™unica verifica davvero efficace per unâ€™email puÃ² essere fatta soltanto inviandone una.

I contenuti tra parentesi nella corrispondenza

I gruppi tra parentesi sono numerati da sinistra verso destra. Il motore di ricerca memorizza il contenuto associato a ciascuno di essi e consente di recuperarlo nel risultato.

Il metodo str.match(regexp), se regexp non ha il flag g, cerca la prima corrispondenza e la restituisce in un array:

Nellâ€™indice 0: lâ€™intera corrispondenza.
Nellâ€™indice 1: il contenuto del primo gruppo tra parentesi.
Nellâ€™indice 2: il contenuto del secondo.
â€¦e cosÃ¬ viaâ€¦

Ad esempio se volessimo trovare i tag HTML <.*?> per elaborarli, sarebbe conveniente averne il contenuto (ciÃ² che Ã¨ allâ€™interno delle parentesi uncinate) in una variabile separata.

Racchiudiamo il contenuto tra parentesi, in questo modo: <(.*?)>.

Adesso otterremo sia lâ€™intero tag <h1> sia il suo contenuto h1 nellâ€™array di risultati:

let str = '<h1>Hello, world!</h1>';

let tag = str.match(/<(.*?)>/);

alert( tag[0] ); // <h1>
alert( tag[1] ); // h1

Gruppi annidati

Le parentesi possono essere annidate. Anche in questo caso la numerazione procede da sinistra verso destra.

Per esempio durante la ricerca del tag in <span class="my"> potrebbe interessarci:

Lâ€™intero contenuto del tag: span class="my".
Il nome del tag: span.
Gli attributi del tag: class="my".

Aggiungiamo le parentesi a questo scopo: <(([a-z]+)\s*([^>]*))>.

Ecco come sono numerate (da sinistra verso destra, a partire dalla parentesi di apertura):

In azione:

let str = '<span class="my">';

let regexp = /<(([a-z]+)\s*([^>]*))>/;

let result = str.match(regexp);
alert(result[0]); // <span class="my">
alert(result[1]); // span class="my"
alert(result[2]); // span
alert(result[3]); // class="my"

Lâ€™indice zero di result contiene sempre lâ€™intera corrispondenza.

Seguono i gruppi, numerati da sinistra verso destra, a partire dalla parentesi di apertura. Il primo gruppo Ã¨ result[1], esso racchiude lâ€™intero contenuto del tag.

Troviamo il gruppo della seconda parentesi ([a-z]+) in result[2] ed a seguire il nome del tag ([^>]*) in result[3].

Ed ecco la rappresentazione del contenuto di ciascun gruppo nella stringa:

Gruppi opzionali

Anche se un gruppo Ã¨ opzionale e non ha alcun riscontro (ad esempio ha il quantificatore (...)?), lâ€™elemento corrispondente Ã¨ comunque presente nellâ€™array result ed equivale a undefined.

Consideriamo per esempio la regexp a(z)?(c)? che cerca la "a" facoltativamente seguita da "z" e da "c".

Se la eseguiamo sulla stringa con la singola lettera a, questo Ã¨ il risultato:

let match = 'a'.match(/a(z)?(c)?/);

alert( match.length ); // 3
alert( match[0] ); // a (l'intera corrispondenza)
alert( match[1] ); // undefined
alert( match[2] ); // undefined

Lâ€™array Ã¨ costituito da 3 elementi, ma tutti i gruppi sono vuoti.

Ed ora ecco un riscontro piÃ¹ articolato per la stringa ac:

let match = 'ac'.match(/a(z)?(c)?/)

alert( match.length ); // 3
alert( match[0] ); // ac (l'intera corrispondenza)
alert( match[1] ); // undefined, perchÃ© non c'Ã¨ riscontro per (z)?
alert( match[2] ); // c

La lunghezza dellâ€™array resta in ogni caso: 3, ma non câ€™Ã¨ riscontro per il gruppo (z)?, quindi il risultato Ã¨ ["ac", undefined, "c"].

Ricerca di tutte le corrispondenze con gruppi: matchAll

Il metodo matchAll non Ã¨ supportato nei browser piÃ¹ datati.

Potrebbe essere richiesto un polyfill come https://github.com/ljharb/String.prototype.matchAll.

Quando cerchiamo tutte le corrispondenze (flag g), il metodo match non restituisce il contenuto dei gruppi.

Cerchiamo ad esempio tutti i tag in una stringa:

let str = '<h1> <h2>';

let tags = str.match(/<(.*?)>/g);

alert( tags ); // <h1>,<h2>

Il risultato Ã¨ un array di riscontri, ma senza i dettagli di ciascuno di essi. Nella pratica comune, tuttavia, nel risultato ci occorre il contenuto dei gruppi di acquisizione.

Per ottenerlo, dovremmo utilizzare la ricerca con il metodo str.matchAll(regexp).

Ãˆ stato aggiunto al linguaggio JavaScript molto tempo dopo match, come sua â€œversione nuova e migliorataâ€.

Proprio come match cerca le corrispondenze, ma ci sono 3 differenze:

Non restituisce un array, ma un oggetto iterabile.
Quando Ã¨ presente il flag g, restituisce ogni riscontro come un array i cui elementi corrispondono ai gruppi.
Se non câ€™Ã¨ alcun riscontro, non restituisce null, bensÃ¬ un oggetto iterabile vuoto.

Per esempio:

let results = '<h1> <h2>'.matchAll(/<(.*?)>/gi);

// results, non Ã¨ un array ma un oggetto iterabile
alert(results); // [object RegExp String Iterator]

alert(results[0]); // undefined (*)

results = Array.from(results); // convertiamolo in un array

alert(results[0]); // <h1>,h1 (primo tag)
alert(results[1]); // <h2>,h2 (secondo tag)

Come possiamo notare la prima differenza Ã¨ davvero rilevante, lo dimostra la linea (*). Non possiamo ricavare la corrispondenza come results[0] perchÃ© quellâ€™oggetto non Ã¨ uno pseudo array. Possiamo convertirlo in un Array a tutti gli effetti tramite Array.from. Trovate ulteriori dettagli sugli pseudo array e sugli iterabili nellâ€™articolo Iteratori.

Non occorre la conversione con Array.from se adoperiamo un ciclo iterativo sui risultati:

let results = '<h1> <h2>'.matchAll(/<(.*?)>/gi);

for(let result of results) {
  alert(result);
  // primo alert: <h1>,h1
  // secondo: <h2>,h2
}

â€¦Oppure se ci avvaliamo della sintassi destrutturata:

let [tag1, tag2] = '<h1> <h2>'.matchAll(/<(.*?)>/gi);

Ogni elemento dellâ€™oggetto di risultati restituito da matchAll ha lo stesso formato del risultato di match senza il flag g: si tratta di un array con le proprietÃ aggiuntive index (la posizione del riscontro nella stringa) e input (la stringa sorgente):

let results = '<h1> <h2>'.matchAll(/<(.*?)>/gi);

let [tag1, tag2] = results;

alert( tag1[0] ); // <h1>
alert( tag1[1] ); // h1
alert( tag1.index ); // 0
alert( tag1.input ); // <h1> <h2>

PerchÃ© questo metodo Ã¨ progettato in questo modo? La ragione Ã¨ semplice, per lâ€™ottimizzazione.

La chiamata a matchAll non esegue la ricerca. Al contrario, restituisce un oggetto iterabile inizialmente privo di risultati. La ricerca Ã¨ eseguita ogni volta che richiediamo un elemento, ad esempio allâ€™interno di un ciclo iterativo.

Verranno pertanto trovati tutti i risultati necessari, non di piÃ¹.

Considerate che potrebbero esserci anche 100 riscontri nel testo, ma potremmo decidere che sono sufficienti le prime cinque iterazioni di un ciclo for..of e interrompere con break. Lâ€™interprete a quel punto non sprecherÃ tempo a recuperare gli altri 95 risultati.

I gruppi nominati

Ricordare i gruppi con i rispettivi numeri Ã¨ difficoltoso. Ãˆ fattibile per i pattern semplici, ma per quelli piÃ¹ complessi contare le parentesi Ã¨ scomodo. Abbiamo a disposizione unâ€™opzione decisamente migliore: dare un nome alle parentesi.

Per farlo inseriamo ?<name> subito dopo la parentesi di apertura.

Cerchiamo una data, ad esempio, nel formato â€œyear-month-dayâ€:

let dateRegexp = /(?<year>[0-9]{4})-(?<month>[0-9]{2})-(?<day>[0-9]{2})/;
let str = "2019-04-30";

let groups = str.match(dateRegexp).groups;

alert(groups.year); // 2019
alert(groups.month); // 04
alert(groups.day); // 30

Come potete osservare, troviamo i gruppi dentro la proprietÃ .groups.

Per cercare tutte le date, possiamo aggiungere il flag g.

Abbiamo inoltre bisogno di matchAll per ottenere sia le corrispondenze sia il dettaglio dei gruppi:

let dateRegexp = /(?<year>[0-9]{4})-(?<month>[0-9]{2})-(?<day>[0-9]{2})/g;

let str = "2019-10-30 2020-01-01";

let results = str.matchAll(dateRegexp);

for(let result of results) {
  let {year, month, day} = result.groups;

  alert(`${day}.${month}.${year}`);
  // primo alert: 30.10.2019
  // secondo: 01.01.2020
}

Sostituire testo con i gruppi di acquisizione

Il metodo str.replace(regexp, replacement), che sostituisce tutti i riscontri con regexp in str, consente di usare il contenuto tra parentesi nella stringa replacement. Per farlo si usa $n, dove n indica il numero del gruppo.

Ad esempio,

let str = "John Bull";
let regexp = /(\w+) (\w+)/;

alert( str.replace(regexp, '$2, $1') ); // Bull, John

Per i gruppi nominati il riferimento sarÃ $<name>.

Rimoduliamo, ad esempio, le date da â€œyear-month-dayâ€ a â€œday.month.yearâ€:

let regexp = /(?<year>[0-9]{4})-(?<month>[0-9]{2})-(?<day>[0-9]{2})/g;

let str = "2019-10-30, 2020-01-01";

alert( str.replace(regexp, '$<day>.$<month>.$<year>') );
// 30.10.2019, 01.01.2020

I gruppi non acquisiti e lâ€™uso di ?:

Talvolta abbiamo bisogno delle parentesi per applicare correttamente un quantificatore, ma non vogliamo il loro contenuto nel risultato.

Un gruppo puÃ² essere escluso aggiungendo ?: dopo la parentesi di apertura.

Se desideriamo, ad esempio, cercare (go)+, ma non vogliamo il contenuto tra le parentesi (go) in un elemento dellâ€™array, scriveremo: (?:go)+.

Nellâ€™esempio qui di seguito otterremo solo il nome John come elemento distinto nel risultato:

let str = "Gogogo John!";

// ?: esclude 'go' dall'acquisizione
let regexp = /(?:go)+ (\w+)/i;

let result = str.match(regexp);

alert( result[0] ); // Gogogo John (l'intera corrispondenza)
alert( result[1] ); // John
alert( result.length ); // 2 (non ci sono ulteriori elementi nell'array)

Riepilogo

Le parentesi raggruppano insieme una parte dellâ€™espressione regolare, in modo che il quantificatore si applichi al gruppo nel suo insieme.

I gruppi tra parentesi sono numerati da sinistra verso destra, e, facoltativamente, si puÃ² attribuire loro un nome (?<name>...).

Il contenuto di un gruppo puÃ² essere ottenuto nei risultati:

Il metodo str.match restituisce i gruppi di acquisizione solo se non Ã¨ presente il flag g.
Il metodo str.matchAll restituisce in ogni caso i gruppi di acquisizione.

Se le parentesi non hanno alcun nome, il loro contenuto Ã¨ disponibile nellâ€™array dei risultati col rispettivo numero. I gruppi nominati sono disponibili anche nella proprietÃ groups.

Possiamo usare, inoltre, il contenuto tra parentesi nella sostituzione di stringhe con str.replace: in base al numero $n o in base al nome $<name>.

Un gruppo puÃ² essere escluso dalla numerazione aggiungendo ?: dopo la parentesi di apertura. Di solito si fa se abbiamo bisogno di applicare un quantificatore ad un intero gruppo, ma non vogliamo che quel gruppo compaia come elemento distinto nellâ€™array dei risultati. In quel caso non possiamo nemmeno usare un riferimento a tali gruppi nella sostituzione di stringhe.

Esercizi

Verificate il MAC-address

Il MAC-address di unâ€™interfaccia di rete Ã¨ composto da 6 coppie di cifre esadecimali separati dai due punti.

Per esempio: '01:32:54:67:89:AB'.

Scrivi una regexp che controlli se una stringa sia un MAC-address.

Uso:

          let reg = /la tua regexp/;

alert( reg.test('01:32:54:67:89:AB') ); // true

alert( reg.test('0132546789AB') ); // false (non ci sono i due punti)

alert( reg.test('01:32:54:67:89') ); // false (5 coppie, devono essere 6)

alert( reg.test('01:32:54:67:89:ZZ') ) // false (ZZ alla fine)

Un numero esadecimale a due cifre Ã¨ [0-9a-f]{2} (dando per scontato che il flag i sia presente).

Dobbiamo trovare quel numero NN, seguito da :NN ripetuto 5 volte.

Lâ€™espressione regolare Ã¨: [0-9a-f]{2}(:[0-9a-f]{2}){5}

Osserviamo, a questo punto, che la corrispondenza dovrebbe catturare tutto il testo: dallâ€™inizio alla fine. A questo scopo racchiudiamo il pattern allâ€™interno di ^...$.

Quindi:

let regexp = /^[0-9a-f]{2}(:[0-9a-f]{2}){5}$/i;

alert( regexp.test('01:32:54:67:89:AB') ); // true

alert( regexp.test('0132546789AB') ); // false (non ci sono i due punti)

alert( regexp.test('01:32:54:67:89') ); // false (5 numeri invece di 6)

alert( regexp.test('01:32:54:67:89:ZZ') ) // false (ZZ alla fine)

Trovate un colore nel formato #abc o #abcdef

Scrivete unâ€™espressione regolare che trovi i colori nel formato #abc o #abcdef. In altre parole: # seguito da 3 o 6 cifre esadecimali.

Esempio dâ€™uso:

          let regexp = /your regexp/g;

let str = "color: #3f3; background-color: #AA00ef; and: #abcd";

alert( str.match(regexp) ); // #3f3 #AA00ef

P.S. Dovrebbe trovare esattamente 3 o 6 cifre esadecimali. I valori con 4 cifre, come #abcd, non dovrebbero dar luogo a corrispondenza.

Lâ€™espressione regolare per cercare il codice di un colore di 3 cifre #abc Ã¨ : /#[a-f0-9]{3}/i.

Possiamo aggiungere esattamente 3 ulteriori cifre esadecimali opzionali. Non abbiamo bisogno di altro. Il codice di un colore Ã¨ composto da 3 o 6 cifre.

Usiamo il quantificatore {1,2} a questo scopo: avremo /#([a-f0-9]{3}){1,2}/i.

In questo caso il pattern [a-f0-9]{3} Ã¨ racchiuso tra parentesi per applicare ad esso il quantificatore {1,2}.

Eccolo in azione:

let regexp = /#([a-f0-9]{3}){1,2}/gi;

let str = "color: #3f3; background-color: #AA00ef; and: #abcd";

alert( str.match(regexp) ); // #3f3 #AA00ef #abc

Câ€™Ã¨ un piccolo problema adesso: il pattern #abc trovato in #abcd. Per evitarlo possiamo aggiungere \b alla fine:

let regexp = /#([a-f0-9]{3}){1,2}\b/gi;

let str = "color: #3f3; background-color: #AA00ef; and: #abcd";

alert( str.match(regexp) ); // #3f3 #AA00ef

Trovate tutti i numeri

Scrivete unâ€™espressione regolare che cerchi tutti i numeri decimali e interi, con virgola mobile e negativi.

Un esempio dâ€™uso:

          let regexp = /your regexp/g;

let str = "-1.5 0 2 -123.4.";

alert( str.match(regexp) ); // -1.5, 0, 2, -123.4

Un numero positivo con una parte decimale opzionale Ã¨: \d+(\.\d+)?.

Aggiungiamo allâ€™inizio il segno meno facoltativo -:

let regexp = /-?\d+(\.\d+)?/g;

let str = "-1.5 0 2 -123.4.";

alert( str.match(regexp) );   // -1.5, 0, 2, -123.4

Analizzate un'espressione

Unâ€™espressione aritmetica consiste in 2 numeri e un operatore tra di essi, ad esempio:

1 + 2
1.2 * 3.4
-3 / -6
-2 - 2

Lâ€™operatore Ã¨ uno fra: "+", "-", "*" o "/".

Potrebbero esserci ulteriori spazi allâ€™inizio, alla fine o tra gli elementi.

Create una funzione parse(expr) che riceva unâ€™espressione e restituisca un array di 3 elementi:

Il primo numero.
Lâ€™operatore.
Il secondo numero.

Ad esempio:

          let [a, op, b] = parse("1.2 * 3.4");

alert(a); // 1.2
alert(op); // *
alert(b); // 3.4
        

Lâ€™espressione regolare per un numero Ã¨: -?\d+(\.\d+)?. Lâ€™abbiamo creata nellâ€™esercizione precedente.

Per trovare un operatore usiamo [-+*/]. Il trattino - va posto allâ€™inizio nelle parentesi quadre, in mezzo significherebbe un intervallo di caratteri, mentre noi vogliamo soltanto il carattere -.

Dovremmo fare lâ€™escape dello slash / dentro una regexp JavaScript /.../, lo faremo dopo.

Abbiamo bisogno di un numero, un operatore, e quindi un altro numero. Tra di essi ci possono essere spazi opzionali.

Ecco lâ€™intera espressione regolare: -?\d+(\.\d+)?\s*[-+*/]\s*-?\d+(\.\d+)?.

Questa consta di 3 parti, intervallate da \s*:

-?\d+(\.\d+)? â€“ il primo numero,
[-+*/] â€“ lâ€™operatore,
-?\d+(\.\d+)? â€“ il secondo numero.

Per rendere ciascuna di queste parti un elemento separato dellâ€™array di risultati le racchiudiamo tra parentesi: (-?\d+(\.\d+)?)\s*([-+*/])\s*(-?\d+(\.\d+)?).

In azione:

let regexp = /(-?\d+(\.\d+)?)\s*([-+*\/])\s*(-?\d+(\.\d+)?)/;

alert( "1.2 + 12".match(regexp) );

Il risultato include:

result[0] == "1.2 + 12" (lâ€™intera corrispondenza)
result[1] == "1.2" (il primo gruppo (-?\d+(\.\d+)?), il primo numero compresa la parte decimale)
result[2] == ".2" (il secondo gruppo(\.\d+)?, la prima parte decimale)
result[3] == "+" (il terzo gruppo ([-+*\/]), lâ€™operatore)
result[4] == "12" (il quarto gruppo (-?\d+(\.\d+)?), il secondo numero)
result[5] == undefined (il quinto gruppo (\.\d+)?, lâ€™ultima parte decimale Ã¨ assente, quindi equivale ad undefined)

Il nostro scopo Ã¨ ottenere i numeri e lâ€™operatore, senza lâ€™intera corrispondenza o le parti decimali, quindi â€œpuliamoâ€ un poâ€™ il risultato.

Lâ€™intera corrispondenza (il primo elemento dellâ€™array) possiamo rimuoverla con result.shift().

I gruppi che contengono le parti decimali (gli elementi 2 e 4) (.\d+) li escludiamo aggiungendo ?: allâ€™inizio: (?:\.\d+)?.

La soluzione finale:

function parse(expr) {
  let regexp = /(-?\d+(?:\.\d+)?)\s*([-+*\/])\s*(-?\d+(?:\.\d+)?)/;

  let result = expr.match(regexp);

  if (!result) return [];
  result.shift();

  return result;
}

alert( parse("-1.23 * 3.45") );  // -1.23, *, 3.45

Mappa del tutorial

Commenti

leggi questo prima di lasciare un commentoâ€¦