Nei titoli e nei testi troverete qualche rimando cinematografico (ebbene si, sono un cinefilo). Se non vi interessano fate finta di non vederli, già che non sono fondamentali per la comprensione dei post...

Di questo blog ho mandato avanti, fino a Settembre 2018, anche una versione in Spagnolo. Potete trovarla su El arte de la programación en C. Buona lettura.

domenica 20 ottobre 2019

Debugger? No, grazie!
considerazioni sull'uso del Debugger con il C

(...una premessa: questo è un articolo della serie "filosofica" come lo erano, ad esempio, "Variabili Globali? No, grazie!" oppure "No Comment". Quindi quella che esporrò è la mia personale filosofia, che non necessariamente è perfetta o è l'unica possibile. E lo preciserò di nuovo, come ho fatto nell'ultimo articolo: non sono il messia, sicuramente dico e faccio tante scemate, ma a volte ci azzecco, e quindi: i permalosi e/o privi di senso dell'umorismo sono esentati dalla lettura dell'articolo, e chi continua non dica che non l'avevo avvertito...)
Michele: Mi si nota di più se vengo e me ne sto in disparte o se non vengo per niente? Vengo. Vengo e mi metto, così, vicino a una finestra, di profilo, in controluce. Voi mi fate "Michele vieni di là con noi, dai" ed io "andate, andate, vi raggiungo dopo".
Nel bel Ecce Bombo, Michele, il protagonista, ha molti problemi esistenziali e filosofici, tipo quello sulla convenienza ad andare/non andare a una festa. E oggi di quello parleremo, di filosofia e gravi problemi della vita odierna, tipo: "Mi si nota di più se uso il Debugger o se non lo uso?". Per la precisione, tutto quello che segue da qui in avanti si riferisce all'uso "classico" o, se preferite, alla "accezione comune" del Debugger, e cioè: "Ho un blocco o un comportamento inaspettato di un programma: analizzo e risolvo il problema eseguendo passo-passo con un Debugger". Gli altri usi più profondi tipo l'analisi di un Core Dump o il Disassembly per usi (si spera leciti) di analisi di un codice eseguibile, non fanno parte di questa trattazione.
...mi si nota di più se uso il Debugger o se non lo uso?...
Allora, tanto per evitare fraintesi vi mostro subito quale è il mio pensiero al riguardo, e userò per l'occasione una interessante definizione circolare:
- Il Debugger serve solo a risolvere problemi facili.
- Se un problema è facile posso risolverlo senza usare il Debugger.
Il succo della definizione qua sopra è evidente: Il Debugger non serve a niente! Ovviamente non metto in dubbio che ci sono Debugger ben fatti e con alte prestazioni ma, semplicemente, io penso che la loro utilità sia molto limitata, perlomeno per il debugging classico ed elementare. E c'è un dato di fatto: io faccio l'Analista Programmatore (e lo faccio egregiamente, modestia a parte) da molto tempo e non uso praticamente mai il Debugger: sono un miracolato? Sono una mosca bianca? Sono solo molto fortunato? Boh, fate vobis...

Ed è già ora di fare qualche esempio reale:
  • Sei un Programmatore Esperto, stai lavorando su una tua applicazione e devi risolvere un problema: l'applicazione è tua, il codice l'hai scritto tu, quindi dovresti (anzi: devi) avere il controllo del flusso del programma, e quindi hai tutti i mezzi per capire quello che sta succedendo. Se per seguire "il giro del fumo" hai bisogno di scomodare un Debugger... mai pensato di cambiare lavoro? 
  • Sei un Programmatore Esperto, stai lavorando su una applicazione non tua, ma ben scritta e ben documentata, e devi risolvere un problema: l'applicazione è, ripeto, ben scritta e ben documentata, quindi dovresti (e vabbè, tolgo il devi) avere ugualmente il controllo del flusso, e quindi hai tutti i mezzi per capire quello che sta succedendo. Se per seguire "il giro del fumo" hai bisogno di scomodare un Debugger... mai pensato di fare un piccolo sforzo per leggere attentamente codice e documentazione e acquisire il controllo totale del flusso del programma? Ti potrebbe tornare molto utile nel prosieguo del lavoro...
  • Sei un Programmatore Esperto, stai lavorando su una applicazione non tua, scritta da cani e senza documentazione, e devi risolvere un problema: a parte inviare le dovute maledizioni al pregiato autore del codice-ciofeca su cui stai lavorando, cosa puoi fare? E vabbè, sarò generoso: in questo caso ti permetto di usare un Debugger, ma non te lo consiglio: anche in tali condizioni sarebbe molto utile cercare di acquisire il controllo completo e, magari, approfittare per documentare e migliorare il codice. Comunque a fine lavoro ricordati di inviare le dovute maledizioni, mi raccomando... e già che ci sei: riserva una rispettosa maledizione anche a un tuo (eventuale) capo se ti ha detto "risolvi solo il problema, è inutile che migliori e documenti il codice, non abbiamo tempo": il tuo capo è colpevole come l'autore del codice-ciofeca, anzi è un suo complice.
Avete notato che negli esempi precedenti non ho specificato se il problema da risolvere era piccolo o grande? Beh, se il motivo non vi è chiaro vi consiglio di rileggere la definizione circolare con cui ho introdotto l'argomento. E notate bene: ho evidenziato il termine "Programmatore Esperto", perché è di questo che stiamo parlando. I Programmatori Inesperti o Novizi, sono un caso a parte, e hanno una Dispensa Papale sull'uso del Debugger, visto che per loro potrebbe risultare istruttivo. Poi, se poi continuano a usarlo anche quando passano allo stadio di Programmatore Esperto, per loro è pronta una Scomunica Papale (con relativa retrocessione allo stato di Novizio). So di cosa parlo, sono stato un Programmatore Novizio anch'io...

Ed ora definiamo il concetto di problema facile o difficile: molti dicono: "il Debugger bisogna usarlo sempre, forse solo in alcuni casi di complessi programmi multithread un normale Debugger non aiuta molto, e bisogna seguire un approccio diverso"... uhm, sbaglio o rientriamo nella definizione circolare introduttiva? Io lavoro praticamente sempre su "complessi programmi multithread": sono solo sfortunato o quello di risolvere problemi complicati è, giustamente, il compito dei Programmatori Esperti? Senza offesa eh, ma se vi danno da fare solo lavori facili in cui potete usare liberamente (anche se non serve) il vostro amato Debugger, forse non vi considerano Esperti...

E poi veniamo alla parte più strana, quella delle leggende urbane, quelle che "Non usi il Debugger? Allora sei della vecchia generazione!". In questo caso mi tocca, mio malgrado, chiedere aiuto a quell'irascibile di mio cuggino, che ha sempre qualche aneddoto da raccontare. True Story? Può darsi...
un programmatore: Ah, ma tu non usi il Debugger perché sei della vecchia generazione, tu sei abituato a usare solo un editor e un compilatore e via!
mio cuggino: Non è vero: ai miei tempi, quando scolpivo il codice nella roccia tra una caccia al Mammut e l'altra, usavo già il Debugger, ma solo quando era strettamente necessario, esattamente come faccio oggi. 
un programmatore: Ma come? Esistevano già i Debugger? 
mio cuggino: Uhm... fai un po' te, su UNIX negli anni '70 esistevano già DB, ADB e SDB. Negli anni '80 poi sono usciti DBX e (nel 1986) GDB. Per quanto riguarda il MS-DOS, nel 1989 era già disponibile il famosissimo Borland Turbo Debugger. 
un programmatore: DB, ADB, SDB, DBX, GDB, Turbo Debugger... mai sentiti, ma di cosa stai parlando?
mio cuggino: E vabbè, continuiamo così, facciamoci del male... 
Per concludere citerò una bella frase che è molto usata ultimamente: "Non sono d'accordo con quello che dici, ma difenderò fino alla morte il tuo diritto a dirlo". È, spesso, attribuita erroneamente a Voltaire ma è invece di una sua biografa, Evelyn Beatrice Hall: ma questo dettaglio non importa, quello che importa è il potentissimo contenuto, che io vorrei sempre applicare. Quindi, lungi da me criticare i colleghi che lavorano in modo diverso dal mio, anzi, quando posso li appoggio. Le mie azioni e i miei articoli sono (o vorrebbero essere) pura critica costruttiva, e devo dire (con somma soddisfazione) che alcuni colleghi, lavorandomi affianco, hanno cambiato un po' lo stile (tipo smettere di essere schiavi del debugger!). Comunque ho il massimo rispetto per chi ha altre convinzioni e non vuole cambiarle. E ho detto tutto!

(...apro una parentesi un po' OT: la frase qui sopra è adatta a esperimenti sociologici interessanti, tipo attribuirla apposta a Voltaire per vedere se qualcuno, invece di soffermarsi sulla bellezza della frase, ti riprende unicamente e furiosamente per l'errore di attribuzione. Diffidate di questi irosi tuttologi che "guardano il dito invece della luna": frequentano blog, fori e conferenze sperando, ansiosamente, in qualche errore del relatore che gli fornisca una scusa per evidenziare che solo loro detengono la sapienza universale. Gentaccia...)

Beh, credo che con questo posso considerare concluso un altro capitolo della mia personale lotta ai "Luoghi Comuni dell'Informatica", e ne seguiranno altri. E se volete chiamarmi "Il Pedante Informatico" fate pure, in effetti lo sono...

Ciao, e al prossimo post!

mercoledì 18 settembre 2019

L'invasione dei Multithread
considerazioni sulla Programmazione Multithread in C

(...una premessa: questo è il seguito naturale (e promesso) dell'articolo Errno Miei (correre a rileggerlo, prego). Potrebbe apparire un po' polemico (ebbene si, lo è), ma prendetelo con le pinze: io non sono un buonista e preferisco dire "pane al pane e vino al vino", e questo potrebbe urtare qualcuno (che, in tal caso, direi che se lo merita), però potrebbe alimentare la fame di conoscenza che è il fiore all'occhiello di tutti gli appassionati di informatica, e sono sicuro che quasi tutti voi disponete di questa caratteristica. Ah, e ci tengo a precisare: non sono il messia, sicuramente dico e faccio tante scemate, ma a volte ci azzecco, e quindi: i permalosi e/o privi di senso dell'umorismo sono esentati dalla lettura dell'articolo, e chi continua non dica che non l'avevo avvertito...)
Dr. Bassett: Allora, che ne pensa, dottor Hill?
Dr. Hill: Secondo me si tratta di un incubo. 
Dr. Bassett: Altro non può essere. Semi che provengono da altri mondi e che generano esseri umani! Mh, roba da pazzi!
Nel mitico L'invasione degli ultracorpi si narra di una invasione di extraterrestri che si sostituiscono agli umani, e i sostituti sono molto somiglianti ma smascherabili analizzandone il comportamento. Ecco, a volte ho l'impressione che, nel nostro mondo (informatico) reale, stiamo assistendo a un'altra invasione, quella dei (falsi) "Programmatori specialisti in Multithread" che non sono quei programmatori specializzati nel fare 10 lavori alla volta (in quello, ahimè, siamo tutti specializzati, chi più chi meno...), ma sono quei programmatori che sanno scrivere applicazioni multithread.
...scappiamo, mica che ci prendono per Programmatori Multithread...
Oramai gli annunci di ricerca sono quasi tutti del tipo "Cercasi A.P. Junior (anche primo impiego) con 10 anni di esperienza in Applicazioni Multithread", e anche l'annuncio dell'arrivo in ufficio di un nuovo collega è sempre del tipo "domani arriva tizio: è uno specialista in Multithreading... no, non fa 10 lavori per volta". Poi ti capita (true story capitata a mio cuggino) che metti le mani sul codice scritto da uno di questi specialisti e ti senti obbligato a chiedere:
mio cuggino: Scusa, solo per curiosità, com'è che hai scritto questa enorme applicazione multithread senza mai usare una funzione della famiglia "nomefunzione_r"?
specialista multithread: "nomefunzione_r"? Uhm... in questo momento mi sfugge il significato... A cosa servono?
mio cuggino: ...e poi ho visto che hai usato un po' di variabili globali senza proteggerle...
specialista multithread:  Ah, le variabili globali... dici che è meglio non usarle?
mio cuggino: E vabbè, continuiamo così, facciamoci del male...
Il problema è che, per essere un vero programmatore multithread non basta aver scritto una (sola) volta del "codice che faceva uso di ben due thread", e non basta nemmeno (per la proprietà transitiva) "avere stretto la mano a uno che ha parlato una volta con un vero specialista in multithreading": bisogna avere le basi e averci sbattuto la testa (veramente) per qualche annetto (...hey, ci sono passato anch'io quando ero ggiovane: ricordatevi che nessuno nasce imparato...). Adesso: visto che le basi sono tante (ho detto "race condition"? oppure "deadlock"? oppure bla, bla, bla) e non è che con un articolo scritto da un volenteroso e umile (ehm...) programmatore si possa affrontarle tutte, ma, tanto per cominciare, si può iniziare chiarendo due concetti misteriosi e fondamentali: sto parlando di "Thread safety" e "Reentrancy".

Ebbene, la teoria dice che:
Thread safety: una funzione è thread-safe se può essere eseguita da più thread in modo sicuro (ovvero ottenendo sempre il risultato che ci si aspetta), anche se le chiamate si verificano contemporaneamente su più thread e si manipolano dati condivisi. 
Reentrancy: una funzione è rientrante se può essere interrotta in qualsiasi momento durante la sua esecuzione e quindi richiamata in modo sicuro ("rientrata") prima che le sue precedenti invocazioni completino l'esecuzione.
(...le definizioni qui sopra le potete trovare in rete in versioni più o meno simili: questo è un argomento un po' controverso, quindi per alcuni queste definizioni potrebbero risultare limitate, oppure eccessive, oppure non completamente esatte. Comunque credo che rendano bene l'idea...)

Come si nota i due concetti descritti sono simili e parzialmente sovrapponibili, ma si può dire che la "Reentrancy" sia, come dire? A un livello superiore, perché è una specie di "Thread safety" applicabile anche in applicazioni single-thread, e difatti è un concetto più antico, applicato da molto tempo (perfino in sistemi come l'orribile MS-DOS), visto che quando si lavora con gli Interrupt (o coi Segnali) le funzioni di servizio invocate devono essere rientranti... ma non voglio mettere troppa carne al fuoco: parleremo di Interrupt, Segnali e routine di servizio in un altro post, promesso.

Riepiloghiamo: una funzione thread-safe può essere chiamata tranquillamente su più thread, mentre che una funzione rientrante può fare le stesse cose e, in più, ti permette di interrompere e richiamare in sicurezza più istanze della stessa funzione all'interno dello stesso thread. Quindi, se usiamo sempre funzioni rientranti siamo al sicuro? Beh, in pratica si, ma in teoria no, perché in realtà abbiamo quattro possibilità (...eh si: la magica potenza del 2...):
  1. Funzioni thread-safe e rientranti
  2. Funzioni thread-safe e non rientranti
  3. Funzioni non thread-safe e rientranti
  4. Funzioni non thread-safe e non rientranti
il caso 1 (thread-safe e rientranti) è, fortunatamente, il più probabile e frequente: come già anticipato nel post Errno Miei esiste una famiglia di funzioni "nomefunzione_r" della libc (tipo la strerror_r()) dove la desinenza "_r" indica "rientrante", e sono, per nostra fortuna, scritte come si deve, quindi sono anche thread-safe. Uno specialista in multithreading sa che nelle applicazioni che scrive deve sempre preferire l'uso di queste funzioni. Un'altra cosa che deve sapere lo specialista in multithreading è che anche le funzioni che scrive lui nell'applicazione devono essere del tipo 1 (thread-safe e rientranti) o, come minimo, del tipo 2 (solo thread-safe). E, infine, uno specialista non scriverà mai una funzione del tipo 3 o del tipo 4, e se è costretto a a usare una funzione di libreria non thread-safe la dovrà usare con le dovute accortezze (più avanti vedremo qualche esempio).

Le linee guida che deve seguire uno specialista quando scrive una funzione che userà in una applicazione multithread sono varie, ma per semplificare possiamo descrivere le due fondamentali:
  1. Non usare mai variabili globali o statiche (che sono delle globali travestite).
  2. Non chiamare mai (internamente alla funzione) altre funzioni non thread-safe (logico, no?).
E ora possiamo vedere in pratica quanto detto finora: scriveremo una semplice funzione per trasformare in minuscolo una stringa, e lo faremo MALE (non thread-safe e non rientrante), BENINO (thread-safe e non rientrante) e BENE (thread-safe e rientrante). Sono, evidentemente, esempi stra-semplificati, senza controllo degli errori, ecc. (ma sono solo degli esempi, cosa pretendete?). Vai col codice!

// MALE: versione non thread-safe e non rientrante
char *strLower1(const char *src)
{
    // questo buffer statico rende strLower() non rientrante
    static char buf[256];

    // loop per scrivere la versione lower sulla destinazione
    int i = 0;
    while (*src)
        buf[i++] = tolower(*src++);  // Ok, tolower() è thread-safe

    buf[i] = 0;     // aggiungo il terminatore

    // ritorno il buffer destinazione
    return buf;
}

// BENINO: versione thread-safe e non rientrante (con Thread Local Storage)
char *strLower2(const char *src)
{
    // questo buffer statico rende strLower() non rientrante
    static __thread char buf[256];  // con __thread il buffer è locale ad ogni thread

    // loop per scrivere la versione lower sulla destinazione
    int i = 0;
    while (*src)
        buf[i++] = tolower(*src++);  // Ok, tolower() è thread-safe

    buf[i] = 0;     // aggiungo il terminatore

    // ritorno il buffer destinazione
    return buf;
}

// BENINO: versione thread-safe e non rientrante (con mutex)
pthread_mutex_t buf_lock;   // con un mutex proteggiamo gli accessi al buffer statico

char *strLower3(const char *src)
{
    // questo buffer statico rende strLower() non rientrante
    static char buf[256];

    // loop per scrivere la versione lower sulla destinazione
    pthread_mutex_lock(&buf_lock);      // lock del buffer
    int i = 0;
    while (*src)
        buf[i++] = tolower(*src++);      // Ok, tolower() è thread-safe

    buf[i] = 0;     // aggiungo il terminatore
    pthread_mutex_unlock(&buf_lock);    // unlock del buffer

    // ritorno il buffer destinazione
    return buf;
}

// BENE: versione thread-safe e rientrante
char *strLower4(char *dest, const char *src)
{
    // salvo localmente dest
    char *my_dest = dest;

    // loop per scrivere la versione lower sulla destinazione
    while (*src)
        *my_dest++ = tolower(*src++);    // Ok, tolower() è thread-safe

    *my_dest = 0;   // aggiungo il terminatore

    // ritorno il dest salvato
    return dest;
}
Credo che gli abbondanti commenti nel codice abbiano già chiarito come e perché le varie versioni mostrate hanno comportamenti differenti a livello di sicurezza. Come si nota l'unica versione che rispetta le due linee guida fondamentali riportate sopra è la strLower4(), che ha l'unico inconveniente di avere una interfaccia (e quindi un uso) diverso, visto che bisogna passargli il buffer destinazione: questo che il chiamante si deve occupare di allocare e passare la destinazione è il classico "trucco" usato nelle versioni "_r" della libc (l'avevamo già visto a proposito della strerror_r(), ricordate?).

E, come al solito, il MALE sta nelle variabili globali (e anche di questo ne abbiamo già parlato): se proprio non possiamo farne a meno dobbiamo proteggerle, come negli esempi, usando Thead Local Storage o, ad esempio, un mutex. Faccio notare che strLower2() e strLower3() sono simili (thread-safe e non rientranti) ma strLower3() è peggio: usando (per sbaglio!) strLower2() in una routine di servizio sotto Interrupt (o Segnale) avremmo solo degli errori, mentre con strLower3() potremmo avere anche un deadlock (il mutex viene bloccato alla prima interruzione e una seconda interruzione lo lascia bloccato indefinitamente), quindi attenzione!

Qualcuno avrà notato che non ho fornito un esempio del caso 3 (non thread-safe e rientranti): il fatto è che solo con un codice molto contorto si può arrivare a ottenere questo (cioè: bisogna proprio farlo apposta!), quindi direi che è meglio non fornire un esempio che fornirne uso assurdo.

La funzione strLower3() ci può essere utile come base di descrizione su come  fare a inserire funzioni di libreria non thread-safe che, per qualche strano motivo, non possiamo evitare di di usare: possiamo proteggerle con un mutex, più o meno così:
// versione thread-safe e non rientrante (con una ipotetica tolower() non thread-safe)
pthread_mutex_t fun_lock;   // con un mutex proteggiamo l'uso di tolower()

char *strLower5(char *dest, const char *src)
{
    // salvo localmente dest
    char *my_dest = dest;

    // loop per scrivere la versione lower sulla destinazione
    pthread_mutex_lock(&fun_lock);      // lock della funzione
    while (*src)
        *my_dest++ = tolower(*src++);    // e se tolower non fosse thread-safe?

    *my_dest = 0;   // aggiungo il terminatore
    pthread_mutex_unlock(&fun_lock);    // unlock della funzione

    // ritorno il dest salvato
    return dest;
}
Ovviamente questo sopra è un esempio sbagliato, visto che tolower() è sicuramente thread-safe, ma serve ugualmente a rendere l'idea. E direi che per oggi può bastare. Come anticipato, in un futuro articolo (non necessariamente il prossimo) completeremo il discorso con alcuni esempi di uso di funzioni rientranti sotto Interrupt (o Segnali). Non trattenete il respiro nell'attesa, mi raccomando...

Ciao, e al prossimo post!

giovedì 8 agosto 2019

Lo chiamavano Jeeg OpenSSL
come scrivere TCP Server e Client con OpenSSL in C - pt.3

Enzo/Jeeg: T'è annata male, Zingaro! Si vòi diventà famoso te conviene torna' a fa' l'imitazione der Grande Fratello! 
Fabio/Zingaro: Era Buona Domenica, cojone!
E ci risiamo un'altra volta: anche per questa terza puntata di Lo chiamavano Jeeg Robot (oops: Lo chiamavano Jeeg OpenSSL) abbiamo due notizie, una buona e una cattiva. La buona è che questo post completa (finalmente) il discorso della libreria MySSL. La cattiva notizia è che ho, finalmente, scoperto che diventare ricchi e famosi col Software è veramente molto complicato... Un consiglio: iscrivetevi, invece, al casting del Grande Fratello, quello è il futuro! (no, è mejo Buona Domenica, cojone!).
...e usa sta' MySSL cojone!...
(...si lo so, lo so: nell'ultimo articolo avevo promesso che avremmo proseguito e approfondito il discorso errno/strerror disquisendo di reentrant/thread-safe: ma siamo ad agosto, e l'articolo promesso potrebbe risultare troppo pesante per chi ha già la testa (e anche il corpo, spero) in vacanza... Vi/mi faccio un favore: ne riparleremo a Settembre, così oltre alla depressione post-vacanze vi beccherete anche un articolo pesantone in grado di schiantarvi del tutto...

Allora: perché una terza puntata di Lo chiamavano Jeeg OpenSSL? Se ben ricordate (e se non vi ricordate questa è una occasione imperdibile per rileggere la parte 1 e la parte 2 della serie) abbiamo lasciato la saga con la proposta di una semplice libreria per scrivere in maniera user-friendly applicazioni che usano OpenSSL (che è in effetti un po' ostica da usare così com'è). Era una piccola libreria di smart-wrapper per alcune delle funzioni OpenSSL e l'avevo scritta ad-hoc per il blog, usando una struttura ultra-semplificata: era composta solo da due file, myssl.c e myssl.h, e doveva essere compilata e linkata direttamente con la applicazione che la usava (ad esempio un SSL Server).

Per questa terza parte del post ho deciso di rendere la libreria un po' più professionale, come struttura e come distribuzione, quindi l'ho rivoluzionata (abbastanza) e l'ho trasformata in un repository GitHub. La potete trovare qui (...in realtà già ai tempi della seconda parte del post il mio ottimo collega Andrea Simone Costa mi aveva suggerito di farlo, ma avevo rimandato la cosa a tempi più propizi, tipo ora...). Vi riporto subito il file README.md del repository GitHub così non ci perdiamo in chiacchiere (per l'occasione tradotto in Italiano, ma su GitHub lo trovate in Inglese): 
MySSL 
Un'interfaccia user-friendly per la libreria OpenSSL

Panoramica
----------
La libreria MySSL è una semplice interfaccia per la libreria OpenSSL che 
consente una scrittura user-friendly (in C o C++) di SSL Server e SSL Client.

Note
----
- Licenza GNU MySSL (omissis)
- Licenza OpenSSL (omissis)
- La libreria "OpenSSL" di riferimento è la ver.1.0.2g
- Attualmente la libreria MySSL supporta solo sistemi Linux

Installazione
-------------
Questa è attualmente una versione beta e utilizza un Makefile molto semplice: 
quindi per generare e testare la libreria MySSL è necessario eseguire alcuni 
passaggi manuali:

1. Posizionarsi nella directory src e generare la libreria con 
   "make clean && make". Questo genera una libreria condivisa (libmyssl.so) e 
   la copia nella directory tests/lib. Il header-file myssl.h viene copiato 
   nella directory tests/include.
2. Posizionarsi nella directory tests e generare i due programmi di test
   (sslserver e sslclient) con "make clean && make".
3. Leggere il paragrafo "Testing" di questo file per vedere come eseguire un 
   semplice test della libreria MySSL utilizzando due terminali.
4. Notare che in questa versione beta la libreria non viene installata 
   automaticamente, quindi per eseguire il test è necessario installare 
   libmyssl.so nel sistema oppure è possibile eseguire un'installazione 
   temporanea in entrambi i due terminali in questo modo:

   export LD_LIBRARY_PATH = "~/path-di-myssl-package/tests/lib"

La prossima versione della libreria MySSL utilizzerà Autotools per generare e 
installare automaticamente e per rendere il pacchetto portatile su molti sistemi
Unix-like.

Testing
-------
Due test sono forniti nelle directory tests/server e tests/client e si può 
modificare liberamente il codice sorgente in base alle proprie esigenze (è Free
Software :).

I due programmi di test sono un SSL Server e un SSL Client che utilizzano la 
libreria MySSL e, oltre a testare la libreria, possono servire da esempio su 
come scrivere codice usando la libreria MySSL.

Le due directory di test forniscono esempi di base (e funzionanti) dei 
certificati SSL utilizzati dalla libreria MySSL per funzionare.

Per un rapido test della libreria MySSL, è possibile eseguire i seguenti 
programmi in due shell aperte nelle directory tests/server e tests/client:

1. ./sslserver 8888
2. ./sslclient 127.0.0.1 8888

TODO list
---------
- Generazione e installazione della libreria con Autotools
- Documentazione
- Supporto Windows
Ecco, penso che il README.md sia più che sufficiente a descrivere la nuova MySSL (l'ho scritto apposta!), quindi approfitto dell'occasione per descrivere, invece, i passi che ho eseguito per trasformare una libreria con struttura semplice in una più complessa per GitHub: questa guida è generica ed è, ovviamente, molto soggettiva, ma secondo me potrebbe essere un buon spunto per tutti quelli che si accingono a fare una operazione del genere. Vediamo i passi che ho eseguito:
  1. Ho diviso il "sorgentone" originale myssl.c in più sorgenti, uno per ogni funzione della libreria (sslread.c, sslwrite.c, ecc.).
  2. Ho diviso il "headerone" originale myssl.h in due header, myssl.h (pubblico) e myssl-private.h (privato): i sorgenti della libreria MySSL includono entrambi i file, mentre gli applicativi che usano MySSL includeranno solo l'header pubblico.
  3. Ho aggiunto opportuni header in testa a tutti i file con varie informazioni descrittive (seguendo un po' lo stile dei manuali Unix/Linux e lo standard POSIX).
  4. Ho aggiunto opportuni header in testa a tutte le funzioni della libreria (seguendo un po' lo stile dei manuali Unix/Linux e lo standard POSIX).
  5. Ho tradotto tutto (header e commenti nei sorgenti) in inglese: sono tutt'altro che un esterofilo però, visto che GitHub è un sito di uso globale, bisogna dare una opportunità di lettura diretta a tutto il pubblico potenziale.
  6. Ho creato una struttura di directory semplice e funzionale: src (sorgenti della libreria) e tests (applicazioni di test): per entrambe ho scritto un Makefile. Il Makefile in src genera la libreria, mentre quello in tests genera le due applicazioni di test (un SSL Server e un SSL Client).
  7. Ho scritto i "canonici" file GitHub (README.md, LICENSE e .gitignore) e li ho copiati nella root-directory della libreria.
  8. E, finalmente, ho copiato tutto nel repository GitHub. Missione compiuta!
That's all folks! E buone vacanze!

Ciao e al prossimo post!

lunedì 8 luglio 2019

Errno miei
come funziona errno e come usarlo in C

(...una premessa: questo post è un remake di un mio vecchio post (anzi, di due). L'ho riadattato e "modernizzato" per pubblicarlo su quell'altro bel blog collettivo dove scrivo. Visto che le modifiche sono molte e (forse) interessanti, lo ripubblico anche qui. Questo potrebbe ripetersi in futuro...)
Mascetti: Tarapìa tapiòco! Prematurata la supercazzola, o scherziamo?
Vigile: Prego?
Mascetti: No, mi permetta. No, io... scusi, noi siamo in quattro. Come se fosse antani anche per lei soltanto in due, oppure in quattro anche scribàcchi confaldina? Come antifurto, per esempio.
Vigile: Ma che antifurto, mi faccia il piacere! Questi signori qui stavano sonando loro. 'Un s'intrometta!
Mascetti: No, aspetti, mi porga l'indice; ecco lo alzi così... guardi, guardi, guardi. Lo vede il dito? Lo vede che stuzzica? Che prematura anche? Ma allora io le potrei dire, anche con il rispetto per l'autorità, che anche soltanto le due cose come vicesindaco, capisce?
Vigile: Vicesindaco? Basta 'osì, mi seguano al commissariato, prego!
Perozzi: No, no, no, attenzione! Noo! Pàstene soppaltate secondo l'articolo 12, abbia pazienza, sennò posterdati, per due, anche un pochino antani in prefettura...
Mascetti: ...senza contare che la supercazzola prematurata ha perso i contatti col tarapìa tapiòco.
A volte penso che per spiegare come funziona e come usare errno sarebbe sufficiente usare una Supercazzola come quella dello specialista Mascetti nel capolavoro Amici Miei. Tanto nessuno ti ascolta, errno funziona e tanto basta, quindi perché approfondire? Beh, non sono d'accordo, ho visto (ahimè) molti usi impropri di errno, quindi un po' di sana teoria di base può far bene (anzi, fa sempre bene). Ovviamente gli eventuali "Masters of Errno" qui presenti potranno saltare a piè pari la lettura dell'articolo (che potrebbe risultare noioso, lo ammetto...).
...errno come se fosse antani...
Allora: cos'è errno? Molte funzioni di libreria e system calls in caso di errore aggiornano il valore di una variabile globale (errno, giust'appunto) che quindi contiene, in ogni momento, il valore dell'ultimo errore di esecuzione. Anticamente errno era definito così nel header (della libc) errno.h:
    extern int errno;
e si riferiva a una semplice variabile globale della libc, per l'appunto un int chiamato errno. Poi sono arrivati i thread, con lo standard POSIX 1003.1c (detto anche POSIX.1c, ma fa lo stesso) e quindi errno ha dovuto adeguarsi al modo thread-safe. Come si può ben leggere nel manuale di errno (dopo POSIX.1c) ora la definizione è:
    errno is defined by the ISO C standard to be a modifiable lvalue of
    type int, and must not be explicitly declared; errno may be a macro.
    errno is thread-local; setting it in one thread does not affect its
    value in any other thread.
Quindi la nuova definizione di errno è ora in bits/errno.h (che viene incluso dal errno.h classico). Semplificando un po' (ho omesso alcuni dettagli per facilitare la lettura) il nuovo giro del fumo è:
nel header-file errno.h
#include <bits/errno.h>
/* Declare the `errno' variable, unless it's defined as a macro by
   bits/errno.h.  This is the case in GNU, where it is a per-thread
   variable.  This redeclaration using the macro still works, but it
   will be a function declaration without a prototype and may trigger
   a -Wstrict-prototypes warning.  */
#ifndef errno
extern int errno;
#endif

nel header-file bits/errno.h
/* Function to get address of global `errno' variable. */
extern int *__errno_location (void);

/* When using threads, errno is a per-thread value. */
#define errno (*__errno_location ())
Quindi, in parole povere, ora errno non è più un int globale ma è "il contenuto di un indirizzo ritornato da una funzione globale". Ovviamente la variabile int a cui punta la funzione in oggetto è il nuovo errno locale di un thread (ossia: ogni thread ha il suo errno). Un esempio (mooolto semplificato) di come si potrebbe implementare la __errno_location() è il seguente:
// errno locale di un thread: è una variabile di tipo thread-local storage (TLS)
__thread int th_errno;

int *__errno_location(void)
{
    // ritorna l'indirizzo della variabile th_errno
    return &th_errno;
}
E, alla fine della fiera, nonostante i cambi descritti, sarà ancora possibile fare operazioni di questo tipo:
int my_errno = errno; // Ok, equivale a: int my_errno = (* __errno_location());
errno = EADDRINUSE;   // Ok, equivale a: (* __errno_location()) = EADDRINUSE;
perché, ovviamente, tutto è stato pensato per essere retro-compatibile, e quindi errno, nonostante ora sia una macro, deve ancora comportarsi come quando era un semplice int.

E, a questo punto, non possiamo farci mancare un piccolo estratto dello standard POSIX.1c, che puntualizza tutto quello detto fin'ora:
Redefinition of errno
In POSIX.1, errno is defined as an external global variable. But this definition
is unacceptable in a multithreaded environment, because its use can result in 
nondeterministic results. The problem is that two or more threads can encounter 
errors, all causing the same errno to be set. Under these circumstances, a thread 
might end up checking errno after it has already been updated by another thread. 

To circumvent the resulting nondeterminism, POSIX.1c redefines errno as a service 
that can access the per-thread error number as follows (ISO/IEC 9945:1-1996, n2.4): 

Some functions may provide the error number in a variable accessed through the 
symbol errno. The symbol errno is defined by including the header <errno.h>, as 
specified by the C Standard ... For each thread of a process, the value of errno 
shall not be affected by function calls or assignments to errno by other threads... 
E ora facciamo un passo avanti: come possiamo sfruttare l'esistenza di errno? A parte usarlo direttamente come numero e agire opportunamente nel codice in base all'errore indicato, è prassi abituale cercare la descrizione  dell'errore (come stringa di testo) con un meccanismo che ci viene gentilmente offerta dalla nostra amata libc: infatti, parallelamente a errno, viene mantenuta un'altra variabile globale, _sys_errlist, che contiene le stringhe corrispondenti a ogni error number, per cui (dettaglio importantissimo di cui molti si dimenticano) prima che qualche altra parte del programma in esecuzione alteri il valore di errno, si può localizzare in _sys_errlist la stringa di errore che vogliamo trattare. Questa ultima operazione si può fare usando la funzione strerror(), in una delle sue (tante) varianti.

Ebbene si: la strerror() ha molte personalità, quindi quale scelgo? la strerror() o la strerror_r()? E se uso quest'ultima quale scelgo, la versione XSI-compliant o la versione GNU-specific? (per non parlare, poi, delle altre varianti, la strerror_l(), la strerror_s(), ecc., ma queste sono varianti secondarie).

Cominciamo con la prima domanda: strerror() o strerror_r()? Anticamente esisteva solo la prima, ma poi, come detto sopra, sono apparsi i thread e anche qui sono cominciati i problemi, perché nel codice multithread ci sono alcune parti critiche dove bisognerebbe usare solo funzioni thread-safe. La strerror() non è dichiarata thread-safe nello standard, e per capire il perché basta analizzare una implementazione semplificata (però molto simile alle implementazioni reali che possiamo trovare nelle varie libc disponibili). Vai col codice!
#include <stdio.h> // stdio.h include sys_errlist.h che dichiara le variabili
                   // globali _sys_errlist (array errori) e _sys_nerr (num.errori)
static char buf[256]; // buffer globale statico per la stringa da ritornare

char *strerror(int errnum)
{
    // test se errnum è un valore valido
    if (errnum < 0 || errnum >= _sys_nerr || _sys_errlist[errnum] == NULL) {
        // errore sconosciuto: copio in buf un messaggio di errore generico
        snprintf(buf, sizeof(buf), "Unknown error %d", errnum);
    }
    else {
        // errore conosciuto: copio in buf il messaggio corrispondente
        snprintf(buf, sizeof(buf), "%s", _sys_errlist[errnum]);
    }

    // ritorno buf che ora contiene il messaggio di errore
    return buf;
}
risulta evidente dal codice (ben commentato, come sempre, così non devo spiegarlo riga per riga) che la strerror() non ritorna direttamente _sys_errlist[errnum] (e se fosse così sarebbe intrinsecamente thread-safe) ma compone un messaggio di errore (per trattare anche gli error number non validi) usando un buffer globale statico buf: quindi, se due thread di una applicazione usano (quasi) contemporaneamente la strerror() il contenuto di buf non sarà attendibile (prevale il thread che ha scritto per ultimo). 

(...apro una parentesi: non è vietato scrivere una strerror() che sia thread-safe, e in alcuni sistemi lo è: ma visto che secondo lo standard non lo è, non possiamo essere sicuri che sul sistema che stiamo usando (o sul sistema su cui, un giorno, girerà la applicazione che stiamo scrivendo) non ci sia una implementazione come quella appena descritta, quindi...)

Allora, per il Software multithread è nata la strerror_r() che è thread-safe. Come funziona? vai col codice!
#include <stdio.h> // stdio.h include sys_errlist.h che dichiara le variabili
                   // globali _sys_errlist (array errori) e _sys_nerr (num.errori)

char *strerror_r(int errnum, char *buf, size_t buflen);
{
    // test se errnum è un valore valido
    if (errnum < 0 || errnum >= _sys_nerr || _sys_errlist[errnum] == NULL) {
        // errore sconosciuto: copio in buf un messaggio di errore generico
        snprintf(buf, buflen, "Unknown error %d", errnum);
    }
    else {
        // errore conosciuto: copio in buf il messaggio corrispondente
        snprintf(buf, buflen, "%s", _sys_errlist[errnum]);
    }

    // ritorno buf che ora contiene il messaggio di errore
    return buf;
}
anche in questo caso si tratta di codice semplificato, ma molto vicino alla realtà: il trucco è semplice, invece di usare un buffer globale statico (che è la fonte dei problemi della strerror()) il chiamante della funzione si deve preoccupare di allocare e passare un buffer (e la sua lunghezza) alla strerror_r(). In questo modo il buffer che usa la strerror_r() è locale al thread che la chiama, e non può essere sovrascritto da un altro thread concorrente. Abbiamo sacrificato un po' di semplicità d'uso ma abbiamo ottenuto l'agognato comportamento thread-safe!

Ed ora aggiungiamo un po' di complicazione: la versione di strerror_r() appena mostrata è la GNU-specific. Ma, sfortunatamente, esiste anche la XSI-compliant, che è la seguente:
int strerror_r(int errnum, char *buf, size_t buflen);
Come si nota questa seconda versione non ritorna il buffer con la error-string, ma ritorna, invece, un codice di errore, e la stringa trovata bisogna ripescarla direttamente nel buffer che abbiamo passato. Per quanto riguarda il codice di ritorno è 0 in caso di successo e, in base alla versione di libc in uso, potrebbe ritornare -1 in caso di errore (settando errno al valore specifico di errore) oppure un valore positivo corrispondente a errno (bah, questo doppio comportamento non è proprio il massimo della semplicità d'uso...). Per usare questa versione o la GNU-specific bisogna giocare opportunamente con i flag _GNU_SOURCE, _POSIX_C_SOURCE e _XOPEN_SOURCE del preprocessore (come descritto nel manuale della strerror()).

Il motivo per cui esiste la versione XSI-compliant è descritto nello stesso  estratto dello standard POSIX.1c citato precedentemente, al posto dei puntini di sospensione finali c'è questa parte:
...In addition, all POSIX.1c functions avoid using errno and, instead, return the 
error number directly as the function return value, with a return value of zero 
indicating that no error was detected. This strategy is, in fact, being followed 
on a POSIX-wide basis for all new functions.
E ora siamo pronti per la seconda domanda: quale usiamo, la GNU-specific o la XSI-compliant? Beh, io direi che quando scriviamo del codice per trattare dei codici di errore probabilmente non ci interessa trattare anche gli errori generati in questa fase (e nella fase successiva, ecc., ecc., un loop infinito di ricerca degli errori!); ci interessa, invece, scrivere codice lineare e semplice... per toglierci il dubbio possiamo analizzare due piccoli esempi d'uso:
GNU-specific
if ((my_socket = socket(AF_INET, SOCK_STREAM, 0)) == -1) {
    // errore socket()
    char errbuf[MAX_ERROR_LEN];    // buffer per strerror_r()
    printf("socket() error (%s)\n", strerror_r(errno, errbuf, sizeof(errbuf)));
    return EXIT_FAILURE;
}
XSI-compliant
if ((my_socket = socket(AF_INET, SOCK_STREAM, 0)) == -1) {
    // errore socket()
    char errbuf[MAX_ERROR_LEN];    // buffer per strerror_r()
    int my_error = strerror_r(errno, errbuf, sizeof(errbuf)));
    if (! my_error)
        printf("socket() error (%s)\n", errbuf);
    else {
        // tratto l'errore (magari usando di nuovo strerror_r()?)
        ...
    }

    return EXIT_FAILURE;
}
Non so voi cosa ne pensate, ma io uso sempre la versione GNU-specific! A voi la scelta...

In conclusione: abbiamo analizzato, nel dettaglio, come funziona errno. Poi abbiamo visto come usarlo. E, ancora, abbiamo esaminato le varianti principali della strerror(), notando che, molto spesso, conviene usare la strerror_r() che è la versione thread-safe... Cosa ci manca da approfondire? Ah si, ecco: perchè la strerror_r() si chiama così? E perchè c'è una intera famiglia di funzioni che finiscono in "_r"? Uhm... la "_r" sta per reentrant che, al contrario delle credenze comuni, non è esattamente la stessa cosa di thread-safe... Si, forse dobbiamo approfondire ulteriormente... (SPOILER ALERT: sarà nel prossimo articolo!).

Ciao, e al prossimo post!

giovedì 13 giugno 2019

Un giorno di ordinaria STL
considerazioni sull'efficienza della STL del C++

(...una doverosa premessa: questo articolo è, apparentemente, sul C++. Quindi cosa ci fa in questo blog? Se vi fidate, leggetelo ugualmente, perché gli agganci col C ci sono, (eccome!). Se poi siete completamente refrattari al C++ o, più semplicemente, non è un linguaggio che usate abitualmente, saltatelo pure: non mi offendo...)
William Foster: [prende l'hamburger che ha appena ordinato e lo confronta con la foto dietro il bancone] Quello che mi ha fatto sempre rabbia è... voltatevi, guardate li. Quello è bello gonfio, pieno di salsa, alto 8 cm. Ora... guardate questa insignificante, squallida cosa... qualcuno sa dirmi in che assomiglia alla foto?
Nell'ottimo Un Giorno di Ordinaria Follia un Michael Douglas un po' stressato (eufemismo) scatena la sua rabbia su tutto ciò che incontra, evidenziando più volte la sua frustrazione di consumatore deluso. Ecco, visto che sono un po' stufo che ci vengano vendute le cose "per quel che dovrebbero essere" e non "per quello che sono" ho pensato di fare un po' di luce su un argomento usato e abusato da troppo tempo, quello della straordinaria efficienza della  C++ Standard Library (…STL per gli amici, e preciso: la diatriba sulla correttezza dell’uso e abuso del termine STL (Ok, lo so: è la Standard Template Library) non è oggetto di questo articolo…).
...questo hamburger ha una bassissima efficienza...
Cominciamo, allora, con un colloquio immaginario tra un William Foster arrabbiato (come al solito) e un programmatore entusiasta della STL:
programmatore: Ti raccomando la STL. È bella, completa, comodissima, facile da usare ed è anche molto efficiente.
William Foster: Si, hai ragione, la uso anch'io, funziona (quasi sempre) bene ed è comodissima, ma l'efficienza di cui parli... hai consultato qualche fonte affidabile? Hai scritto qualche benchmark? Insomma chi te l'ha detto?
programmatore: Mah, lo dicono in molti...
William Foster: Molti? Ma chi sono questi molti? Anzi chi è questo Signor Molti che te l'ha detto?
programmatore: Uhm... me l'ha detto mio cuggino...
Ecco, il problema è questo: molti (tra cui gli imparzialissimi creatori della STL) hanno sparso la voce della grande efficienza della STL, e bisogna credergli sulla fiducia, pena essere tacciati di essere dei miscredenti indegni di usare il C++. Ok, e allora sono sono un miscredente, e al cuggino del programmatore qui sopra non credo sulla parola, per cui, emulando San Tommaso, ho deciso di scrivere un bel benchmark...

Ovviamente il benchmark non può coprire tutta la STL (sarebbe un lavoro improbo, e non ho abbastanza tempo per farlo) ma ho pensato che, prendendo un classico problema che mette a prova l'efficienza (vedi un mio recentissimo articolo) e cioè il riempimento di una grande mole di dati, si potrebbe estrarre qualche risultato interessante. Quindi ho scelto alcuni STL Container adatti a questo scopo, e cioè: std::vector (il classico prezzemolino della STL) confrontato con un normale array C, e poi std::list e std::forward_list confrontate con una linked list C che ho scritto ad-hoc. Ok, bando alle ciance, vediamo un estratto semplificato del codice del benchmark per il vector:
// Test Array 1
int* array = (int*)malloc(arrsize * sizeof(int));
for (int i = 0; i < arrsize; i++)
    array[i] = i;

// Test Array 2
vector<int> array(arrsize);
for (int i = 0; i < arrsize; i++)
    array[i] = i;

// Test Array 3
vector<int> array;
array.resize(arrsize);     // alloca+crea istanze per il vector
for (int i = 0; i < arrsize; i++)
    array[i] = i;

// Test Array 4
vector<int> array(arrsize);
for (int i = 0; i < arrsize; i++)
    array.at(i) = i;

// Test Array 5
vector<int> array;
for (int i = 0; i < arrsize; i++)
    array.push_back(i);

// Test Array 6
vector<int> array;
array.reserve(arrsize);     // alloca spazio per il vector
for (int i = 0; i < arrsize; i++)
    array.push_back(i);
e, visto che non vedete l'ora di vedere i risultati, eccoli!

(...ma prima di mostrare e analizzare i risultati, una premessa: questo articolo può sembrare, apparentemente, come un redde rationem con i sostenitori della STL: nulla di più falso: sono anni che sorveglio l'evoluzione della STL e ho già scritto vari benchmark (per uso personale) per verificare eventuali progressi (e per decidere di volta in volta se, come e cosa usare). Fino a qualche anno fa i risultati della STL rispetto agli equivalenti in C puro erano abbastanza deludenti, e visto che di solito scrivo articoli sul C ho deciso di non parlare (quasi) mai dell'argomento, per evitare inutili polemiche e guerre fratricide tra i sostenitori dell'uno e dell'altro bando. Ma, come ho già scritto recentemente, i compilatori crescono e si fanno adulti e, in contemporanea, pare che anche il codice della STL sia stato migliorato. Quindi i risultati che sto per presentare sono decisamente buoni (alla faccia di chi mi accusa di essere parziale). Ciò non toglie che l'efficienza della STL era, fino a un po' di tempo fa, una vera e propria leggenda urbana...)
TEST con arrsize = 0xfffffff

TEST con compilazione g++ senza ottimizzazioni
Test Array 1: tempo trascorso: 0.931270 secondi
Test Array 2: tempo trascorso: 0.880625 secondi
Test Array 3: tempo trascorso: 0.868680 secondi
Test Array 4: tempo trascorso: 2.794937 secondi
Test Array 5: tempo trascorso: 4.442567 secondi
Test Array 6: tempo trascorso: 3.854844 secondi

TEST con compilazione g++ con ottimizzazione -O1
Test Array 1: tempo trascorso: 0.376887 secondi
Test Array 2: tempo trascorso: 0.107783 secondi
Test Array 3: tempo trascorso: 0.107272 secondi
Test Array 4: tempo trascorso: 0.164109 secondi
Test Array 5: tempo trascorso: 1.380443 secondi
Test Array 6: tempo trascorso: 0.863229 secondi

TEST con compilazione g++ con ottimizzazione -O2
Test Array 1: tempo trascorso: 0.375978 secondi
Test Array 2: tempo trascorso: 0.106973 secondi
Test Array 3: tempo trascorso: 0.106659 secondi
Test Array 4: tempo trascorso: 0.162633 secondi
Test Array 5: tempo trascorso: 1.358833 secondi
Test Array 6: tempo trascorso: 0.835997 secondi

TEST con compilazione g++ con ottimizzazione -O3
Test Array 1: tempo trascorso: 0.334696 secondi
Test Array 2: tempo trascorso: 0.109222 secondi
Test Array 3: tempo trascorso: 0.108441 secondi
Test Array 4: tempo trascorso: 0.163007 secondi
Test Array 5: tempo trascorso: 1.052935 secondi
Test Array 6: tempo trascorso: 0.528534 secondi
Ecco: finalmente possiamo dire che vector, senza ottimizzazioni, è efficiente almeno quanto la controparte in C puro, e con le ottimizzazioni (già con la -O1 di g++) si avvantaggia ulteriormente. Era ora! Soprattutto è importante il fattore dell'efficienza senza ottimizzazioni, perché dimostra che il codice è già efficiente di base, e ovvia al problema che, a volte, le ottimizzazioni non si possono usare (comunque, la -O1 di g++ è, normalmente, molto sicura). Evidentemente il benchmark testa solo il riempimento dell'array/vettore, che è, però, la parte più dispendiosa, quindi i risultati sono abbastanza significativi.

E, come avrete notato, per rendere il test più completo ho provato vari metodi di riempimento, ben cinque. E i risultati ci dicono che la maniera  migliore di usare vector è di allocare memoria e oggetti già in costruzione (passando la dimensione al costruttore o usando subito resize()) e poi accedere agli elementi usando l'operatore indice []. Il metodo at() non va altrettanto bene in versione base, ma si giova molto delle ottimizzazioni. Un capitolo a parte va scritto per il metodo push_back(): usandolo con un vector vuoto comporta la crescita progressiva (e dispendiosa) dello stesso, man mano che si riempiono gli elementi, ed i risultati non sono buoni, neanche con le ottimizzazioni. Si può ovviare parzialmente al problema usando il metodo reserve(), ma il miglioramento delle prestazioni non è epocale. 

Conclusione 1: usate pure vector senza remore, è il container raccomandato (a ragione) da Bjarne Stroustrup in persona, e ha raggiunto un notevole livello di maturità. Usatelo, però, in stile C (non so perché, ma mi viene da ridere scrivendo questo) attraverso l'operatore indice [].

E adesso possiamo passare alla seconda parte del test, quella delle liste: vediamo un estratto semplificato del codice:
// Test Lista 1
node_t* array = NULL;
for (int i = 0; i < arrsize; i++)
    addNode(&array, i);

// Test Lista 2
list<int> array;
for (int i = 0; i < arrsize; i++)
    array.push_front(i);

// Test Lista 3
list<int> array;
for (int i = 0; i < arrsize; i++)
    array.push_back(i);

// Test Lista 4
forward_list<int> array;
for (int i = 0; i < arrsize; i++)
    array.push_front(i);

// nodo di una linked list singola con campo dati
typedef struct snode {
    int data;
    struct snode* next;
} node_t;

// alloca in testa a una lista un node con i dati e un puntatore al prossimo elemento
void addNode(node_t** head, int data)
{
    // alloca un nuovo node
 node_t *node = (node_t*)malloc(sizeof(node_t));
 node->data = data;
 node->next = *head;

    // assegna head lista al nuovo node
    *head = node;
}
In questo caso la versione C di riferimento non è immediata come quella usata per vector (che sfruttava direttamente malloc()), ma è comunque elementare: si definisce un tipo nodo a link singolo, e si usa una semplicissima funzione addNode() per aggiungere nodi alla lista. Per comodità e coerenza ho chiamato ugualmente array la lista, anche se, evidentemente, non lo è (permettetemi questa frivolezza, grazie). E adesso passiamo ai risultati, eccoli!
TEST con arrsize = 0xffffff

TEST con compilazione g++ senza ottimizzazioni
Test Lista 1: tempo trascorso: 0.554599 secondi
Test Lista 2: tempo trascorso: 1.643846 secondi
Test Lista 3: tempo trascorso: 1.642775 secondi
Test Lista 4: tempo trascorso: 1.515138 secondi

TEST con compilazione g++ con ottimizzazione -O1
Test Lista 1: tempo trascorso: 0.536368 secondi
Test Lista 2: tempo trascorso: 0.580142 secondi
Test Lista 3: tempo trascorso: 0.580442 secondi
Test Lista 4: tempo trascorso: 0.546508 secondi

TEST con compilazione g++ con ottimizzazione -O2
Test Lista 1: tempo trascorso: 0.516421 secondi
Test Lista 2: tempo trascorso: 0.579874 secondi
Test Lista 3: tempo trascorso: 0.579059 secondi
Test Lista 4: tempo trascorso: 0.539288 secondi

TEST con compilazione g++ con ottimizzazione -O3
Test Lista 1: tempo trascorso: 0.528822 secondi
Test Lista 2: tempo trascorso: 0.579284 secondi
Test Lista 3: tempo trascorso: 0.579571 secondi
Test Lista 4: tempo trascorso: 0.540146 secondi
Ahimè, pare che list sia ancora un po' indietro rispetto alla controparte in C puro. Recupera un po' con le ottimizzazioni, ma non abbastanza. E a nulla è servito usare anche il nuovo container forward_list (che è una novità del C++11) che usa una singly linked list ed è, quindi, direttamente confrontabile col riferimento C (list, invece, è una doubly linked list). Anzi, considerando che forward_list è meno completa di list, alla fin fine tra le due conviene usare quest'ultima. Del resto si può ragionevolmente affermare che, al massimo, un STL Container può avere la stessa efficienza della controparte in C puro con l'aggiunta, però, di un notevole numero di utilità (metodi di accesso multipli, iteratori, allocatori, e chi più ne ha più ne metta): questo obbiettivo alcuni container (come vector) lo raggiungono, mentre altri (come list) non ci riescono. Ce ne faremo una ragione...

Conclusione 2: se non siete proprio dei pigroni usate con parsimonia list e forward_list, che funzionano bene ma non sono il massimo dell'efficienza. Tra l'altro (come diceva anche Bjarne Stroustrup nel link citato sopra), è quasi sempre possibile risolvere la stessa necessità usando vector (e se non è possibile scrivetevi voi una linked-list ad-hoc!).

(...ed ora la conclusione delle conclusioni: immagino che tra i lettori ci siano molti che, come me, alternano l'uso del C con l'uso del C++, oppure li usano in contemporanea. Ecco, in questo caso non fate come me: visto che mi viene abbastanza naturale e facile scrivere codice C di basso livello, quando uso a lungo il C e poi passo al C++ mi riduco a non usare quasi per nulla la STL (al massimo uso la std::string...) e questo non lo raccomando: se perdi l'abitudine a usarla poi ti dimentichi i trucchi del mestiere e, prima o poi, ti toccherà riprenderla da zero. Ricordate, però, che c'è anche un rovescio della medaglia: anche quelli che non alternano C e C++ e usano sempre, o quasi sempre, quest'ultimo, dovrebbero auto-imporsi di non diventare STL-dependent, perché un giorno potrebbero fare magre figure, anche solo per trattare una stringa senza usare std::string (giuro: ho visto fior di programmatori cadere su queste cose, gente terrorizzata da un doppio puntatore...). Quindi, usate la STL: è bella, completa, comodissima, facile da usare ed è (a volte) molto efficiente (e non è perfetta, se no come vi spiegate questo?),  ma, per favore, non scordatevi la programmazione di base!...)

Beh, per oggi può bastare. Ho tentato di fare un po' di luce su un argomento spinoso e (ahimè) sono sicuro di non avere accontentato tutti. E se qualcuno mi obbietta "Ma hai provato solo due STL Container dei 1000 disponibili, e solo in modo riempimento, senza testare i metodi di accesso, gli iteratori, ecc., ecc." che posso rispondere? È vero, ma come ho già detto sopra, sono ragionevolmente convinto che il test del principe dei container (vector) in modo riempimento è una prova molto effettiva e rappresentativa dello stato dell'arte della STL in generale (e il confronto con le liste aggiunge un tocco di completezza che non guasta mai).

Comunque in rete ci sono vari test molto esaustivi che confrontano tra di loro gli STL Container in tutti i loro aspetti, ma... mancano sempre i test di paragone con il codice C base della funzionalità in oggetto, e qui arrivo io a colmare la mancanza. E la mia grande speranza è che, dopo la lettura di questo articolo, nessuna debba più affermare che la STL è efficiente solo perché glielo ha detto suo cuggino...

Ciao e al prossimo post!