Buffer overflowBuffer overflow (o buffer overrun), in informatica, è una condizione di errore che si verifica a runtime quando in un buffer di una data dimensione vengono scritti dati di dimensioni maggiori. StoriaI buffer overflow divennero noti e furono parzialmente documentati al pubblico già nel 1972, quando il Computer Security Technology Planning Study individuò un exploit capace di sfruttare la vulnerabilità: "The code performing this function does not check the source and destination addresses properly, permitting portions of the monitor to be overlaid by the user. This can be used to inject code into the monitor that will permit the user to seize control of the machine.", dove per monitor si intendeva quello che oggi è il kernel.[1] Il primo clamoroso esempio di attacco basato su buffer overflow fu il Morris Worm (noto anche come Internet Worm), che nel 1988 portò al crash di più di 6.000 sistemi connessi a Internet in poche ore, sfruttando il buffer overflow nel processo demone finger di UNIX per propagare attraverso la rete.[2] Più tardi, nel 1995, Thomas Lopatic pubblicò sulla mailing list di Bugtraq un exploit basato sullo stack smashing nel web server NCSA HTTPD su sistema operativo HP-UX, e un anno dopo, nel 1996, Elias Levy (anche noto come Aleph One) pubblicò un articolo intitolato "Smashing the Stack for Fun and Profit" sull'ezine Phrack, una guida step-by-step alle tecniche di exploiting degli stack buffer overflows.[3][4] In seguito i buffer overflow furono sfruttati da due importanti internet worm: nel 2001 il Code Red worm, che sfruttava il buffer overflow nei server Microsoft Internet Information Services (IIS) 5.0[5], e nel 2003 l'SQL Slammer worm, che compromise le macchine che eseguivano Microsoft SQL Server 2000.[6] Nonostante sia una delle vulnerabilità note da più tempo, ancora oggi il buffer overflow rappresenta una falla di sicurezza diffusa ed estremamente attuale: organizzazioni come CERT/CC e SANS pubblicano ancora oggi avvisi relativi alla sicurezza informatica che includono un numero rilevante di exploit basati su buffer overflow; inoltre diversi elementi della lista “CWE/SANS Top 25 Most Dangerous Software Error” sono varianti del buffer overflow.[7] Nel febbraio 2016 i ricercatori di Google e di Red Hat scoprirono la presenza di una vulnerabilità di tipo stack buffer overflow nella funzione getaddrinfo della libreria glibc (tutte le versioni a partire dalla 2.9). Tale libreria è utilizzata da centinaia di applicazioni e dalla maggior parte delle distribuzioni Linux (incluse quelle installate nei router e in altro tipo di hardware): la funzione interessata è quella che si occupa del DNS lookup (risoluzione nomi degli host e indirizzi IP) e la vulnerabilità può permettere a un attaccante l'invio di domini o DNS server malevoli, oltre che attacchi man-in-the-middle fino all'esecuzione di codice arbitrario sulla macchina della vittima.[8][9] DescrizioneQuando, per errore o per malizia, vengono inviati più dati della capienza del buffer destinato a contenerli (che per errore, malizia o superficialità non è stato progettato a dovere), i dati extra vanno a sovrascrivere le variabili interne del programma, o il suo stesso stack; come conseguenza di ciò, a seconda di cosa è stato sovrascritto e con quali valori, il programma può dare risultati errati o imprevedibili, bloccarsi, o (se è un driver di sistema o lo stesso sistema operativo) bloccare il computer. Conoscendo molto bene il programma in questione, il sistema operativo e il tipo di computer su cui gira, si può precalcolare una serie di dati malevoli che inviati per provocare un buffer overflow consenta ad un malintenzionato di prendere il controllo del programma (e a volte, tramite questo, dell'intero computer). Non tutti i programmi sono vulnerabili a questo tipo di inconveniente. Per i linguaggi di basso livello, come l’assembly, i dati sono semplici array di byte, memorizzati in registri o in memoria centrale: la corretta interpretazione di questi dati (indirizzi, interi, caratteri, istruzioni, ecc…) è affidata alle funzioni e alle istruzioni che li accedono e manipolano; utilizzando linguaggi di basso livello si ha dunque un maggiore controllo delle risorse della macchina, ma è richiesta una maggiore attenzione in fase di programmazione in modo da assicurare l’integrità dei dati (e quindi evitare fenomeni come il buffer overflow). I linguaggi di più alto livello, come Java e Python (e molti altri), che definiscono invece il concetto di tipo di una variabile e che definiscono un insieme di operazioni permesse a seconda del tipo, non soffrono di vulnerabilità come il buffer overflow, perché non consentono di memorizzare in un buffer una quantità maggiore di dati rispetto alla sua dimensione. Fra questi due estremi si trova il linguaggio C che presenta alcune delle astrazioni tipiche dei linguaggi di alto livello insieme a elementi tipici dei linguaggi di basso livello, come la possibilità di accedere e manipolare indirizzi di memoria: ciò rende il linguaggio suscettibile ad usi inappropriati della memoria; se a questo si unisce il fatto che alcune librerie di funzioni molto diffuse (in particolare per l’input e la manipolazione di stringhe come la gets) non effettuano un corretto controllo della dimensione dei buffer su cui lavorano, e che il C è stato usato negli anni ’70 per scrivere il sistema operativo UNIX (e da questo sono poi derivati i sistemi come Linux) e molte delle applicazioni pensate per eseguire su di esso, ne consegue che ancora oggi è presente e circola una grande quantità di codice vulnerabile al buffer overflow.[10] Non tutti i programmi sono vulnerabili a questo tipo di inconveniente, infatti perché un dato programma sia a rischio è necessario che:
ConseguenzeQuando questo accade viene sovrascritta parte della zona di memoria immediatamente adiacente al buffer in questione, con diversi effetti possibili a seconda di dove è situato il buffer e di come è organizzata la memoria in quella particolare piattaforma software; in alcuni programmi software questo provoca delle vulnerabilità di sicurezza. I linguaggi managed, cioè basati su un modello di memoria gestito a runtime come Java, dovrebbero in teoria essere immuni da questo tipo di errore, ma in pratica la possibilità rimane presente in caso di chiamate a codice nativo, o a causa di bug del modulo manager (la JVM nel caso di Java) o del compilatore JIT. Il buffer overflow può essere indicato con diversi nomi a seconda della posizione occupata dal buffer all’interno della memoria allocata per il processo. La posizione del buffer è importante in quanto gli effetti del buffer overflow sono principalmente legati a:
VulnerabilitàMemoria virtuale di un processoQuando viene eseguito un programma il sistema operativo normalmente genera un nuovo processo e alloca in memoria centrale uno spazio di memoria virtuale riservato al processo stesso. Questo spazio di memoria in generale ha una struttura data da (partendo dall’alto verso il basso):
L’esecuzione del programma consiste a sua volta di diverse chiamate a funzioni: ciascuna chiamata genera uno stack frame all’interno dello stack (che man mano cresce verso il basso nella struttura descritta sopra, con politica LIFO); all’interno del frame la funzione chiamata memorizza le variabili locali, l’indirizzo dell’istruzione della funzione chiamante a cui dovrà restituire il controllo (return address) e il puntatore al frame della funzione chiamante; questi ultimi due in particolare giocano un ruolo fondamentale nell’assicurare il giusto flusso di esecuzione al programma fra una chiamata di funzione e l’altra, infatti:
Lo stack cresce verso il basso ad ogni chiamata di funzione, e ciascun frame generato presenta dunque una struttura del tipo (sempre dall’alto verso il basso):
Stack buffer overflowQuando il buffer è allocato nello stack, ovvero è una variabile locale di una funzione, l’eventuale immissione all’interno del buffer di una quantità di dati superiore alla sua portata prende il nome di stack buffer overflow (o stack smashing, o stack-based buffer overflow). In questo caso i dati adiacenti al buffer che potrebbero essere sovrascritti dai dati extra sono il return address e il frame pointer. Se i dati in eccesso sovrascrivono frame pointer e return address, al termine dell’esecuzione la funzione tenterebbe di restituire il controllo all’istruzione puntata dal return address che potrebbe contenere:
In questo secondo caso rientrano gli attacchi basati sull’iniezione di shellcode; i dati inseriti all’interno del buffer contengono codice eseguibile in linguaggio macchina (assembly), e la sovrascrittura del return address viene fatta in modo da rimandare al codice iniettato all’interno del buffer. Compito di tale codice è normalmente quello di richiamare un’interfaccia a riga di comando, ovvero una shell, motivo per cui tale codice è detto shellcode (una chiamata alla funzione execve che esegue la Bourne shell per i sistemi UNIX, una chiamata a system (“command.exe”) nei sistemi Windows). In ogni caso il programma in esecuzione viene sostituito dalla shell, che eseguirà con gli stessi privilegi del programma di partenza. Esiste una variante di questo tipo di attacco che si basa sulla sostituzione solo del frame pointer, e che può essere utilizzata quando l'overflow consentito è limitato e non permette di arrivare alla sovrascrittura del return address. L'attacco consiste nello sfruttare l'overflow per sostituire il frame pointer memorizzato in modo da farlo puntare a uno stack frame fasullo, iniettato all'interno del buffer insieme allo shellcode; in questo stack frame fasullo l'attaccante ha inserito come return address un puntatore allo shellcode: quando la funzione colpita termina la sua esecuzione, quindi, restituisce correttamente il controllo alla funzione chiamante (il return address infatti non è stato cambiato), ma questa riprenderà l'esecuzione con un contesto fasullo e, quando a sua volta anche lei terminerà di eseguire, il controllo verrà infine trasferito allo shellcode (poiché in questo stack frame è stato alterato il RA in modo da puntare al codice maligno). Gli attacchi off-by-one si basano proprio su questo principio: se per un errore di scrittura il programmatore consente l'immissione all'interno di un buffer anche solo di un byte in più del dovuto (usando ad esempio un <= invece del < nel test di una condizione di controllo), questo semplice byte in più potrebbe essere utilizzato da un attaccante per modificare il frame pointer memorizzato a sufficienza da farlo puntare ad uno stack frame fasullo, e ottenere quindi indirettamente il trasferimento del controllo al codice maligno iniettato.[10] Infine bisogna ricordare che stack overflow e stack buffer overflow non sono sinonimi: il primo indica una situazione per cui si richiede una quantità troppo elevata di memoria nello stack, il secondo una situazione in cui (per varie ragioni) si inserisce in un buffer nello stack una quantità di dati più grande della capacità del buffer stesso.[11] Heap overflowUn programma può richiedere al sistema operativo di allocare dinamicamente una certa quantità di memoria nell'area heap, sfruttando chiamate di sistema come malloc() e free() in C/UNIX. Questi buffer possono ugualmente essere suscettibili a problemi di overflow nel momento in cui vi si possa inserire una quantità di dati superiore alla memoria allocata, e questi dati andrebbero come al solito a sovrascrivere le aree di memoria adiacenti al buffer. Si parla in questi casi di heap overflow, ma a differenza dello stack, nell'area heap non sono memorizzati né indirizzi di ritorno, né frame pointer che possano essere alterati da un attaccante per trasferire il controllo dell'esecuzione a codice arbitrario. Tuttavia questo non significa che tali anomalie non costituiscano delle vulnerabilità pericolose: nel 2002 fu riscontrata una vulnerabilità di tipo heap overflow in un'estensione di Microsoft IIS che poteva essere sfruttata per eseguire codice arbitrario proprio su questo tipo di server.[12] Quando un programma presenta diverse funzioni che eseguono la stessa operazione ma in modo diverso (ad esempio il sorting), e si desidera stabilire a runtime quale utilizzare per processare i dati in ingresso, spesso si usa memorizzare dei puntatori a funzione nell'area heap: questi puntatori contengono gli indirizzi iniziali delle funzioni, e vengono utilizzati per richiamarne successivamente l'esecuzione. In uno scenario del genere, un attaccante potrebbe sfruttare l'overflow di un buffer allocato sullo heap per sovrascrivere tali puntatori, sostituendoli con un puntatore allo shellcode iniettato attraverso l'overflow: la successiva chiamata a una delle funzioni comporterebbe il trasferimento del controllo allo shellcode invece che alla funzione attesa.[13] ContromisureEsistono varie tecniche per prevenire o rivelare il fenomeno del buffer overflow, con vari tradeoff. In generale queste difese possono essere adottate a vari livelli:[14]
Difese a livello di linguaggioLa miglior difesa da attacchi basati sul buffer overflow sta nella scelta di un linguaggio di programmazione che fornisca controlli automatici sulla dimensione dei buffer (o a tempo di compilazione o a runtime) come Java, Python o Perl. Se questa opzione può essere presa in considerazione per lo sviluppo di nuovi programmi, resta però difficilmente applicabile nel caso di progetti esistenti, in cui ciò comporterebbe la riscrittura del codice nel nuovo linguaggio.[14] Un'alternativa consiste nell'utilizzo di safe library, ovvero librerie di funzioni che implementano protezioni contro il buffer overflow: in C rappresentano funzioni vulnerabili strcat, strcpy, gets, sprintf (e altre ancora...) di cui esistono controparti "sicure" come strncpy, strncat, snprintf. Un esempio di queste safe library sono "libsafe", "libparanoia" e "libverify".[15] Libsafe, ad esempio, implementa una tecnica di protezione dallo stack buffer overflow basata sul controllo di eventuali alterazioni dello stack quando una funzione termina di eseguire: se lo stack risulta modificato, il processo termina con un errore di segmentazione.[16] Difese a livello di codice sorgenteEsistono tool in grado di rilevare vulnerabilità al buffer overflow all'interno del codice sorgente effettuando analisi più o meno complesse sullo stesso, sia statiche che dinamiche. "Its4" è un semplicissimo esempio di analizzatore statico che effettua la ricerca di eventuali chiamate di funzioni vulnerabili note (come strcpy o popen), pensato come sostituzione alla ricerca tramite grep: data la sua semplicità e la rudimentale analisi del codice che realizza è molto facile incappare in falsi positivi e negativi.[17] In alternativa esistono tool più complessi in grado di effettuare l'analisi dinamica del programma, come "Rational Purify", un debugger di memoria realizzato da IBM in grado di individuare eventuali anomalie nella gestione della memoria durante l'esecuzione del programma (accesso a variabili non inizializzate, buffer overflow, deallocazione impropria di memoria, ecc...).[18] Difese a livello di compilatoreLinguaggi di medio/basso livello come il C forniscono alte prestazioni proprio perché "risparmiano" su certi controlli che non vengono automaticamente gestiti a livello di linguaggio lasciando tale responsabilità al programmatore, e gettando dunque le basi a vulnerabilità come il buffer overflow in caso di mancanza dei controlli sulle dimensioni dei buffer durante gli accessi. Una delle tecniche di difesa da queste anomalie è prevedere che sia il compilatore ad inserire le verifiche sulla dimensione di tutti i buffer nel codice compilato senza richiedere alcuna modifica al codice sorgente, ma solo al compilatore, a scapito però dei tempi che possono aumentare anche di più del 200%.[14] Questa fu la direzione intrapresa da due differenti progetti di patching al compilatore gcc scritti da Herman ten Brugge e Greg McGary.[19] Approccio differente è invece quello di "StackShield", un'estensione del compilatore gcc per la protezione dallo stack smashing nei sistemi Linux; anziché inserire a tempo di compilazione i controlli per il bounds checking dei buffer, l'obiettivo di StackShield è quello di impedire la sovrascrittura dei return address memorizzandone una copia in una zona sicura non sovrascrivibile (all'inizio del segmento dati) all'inizio di ogni chiamata di funzione, copia che viene poi confrontata al termine dell'esecuzione della funzione con il valore memorizzato nello stack: se i valori non combaciano StackShield può terminare l'esecuzione del programma o tentare di proseguire ignorando l'attacco e rischiando al massimo il crash del programma.[20] Un'altra estensione del compilatore gcc, "StackGuard", consente sia la rivelazione di eventuali stack buffer overflow sia la prevenzione degli stessi: la prima difesa tuttavia risulta molto più efficiente e portabile della seconda, in generale meno affidabile e sicura. La rivelazione si basa sulla scrittura nello stack frame di una canary word fra le variabili locali e il return address memorizzato e sull'assunto che non sia possibile sovrascrivere il RA senza alterare la canary word, che prende quindi questo nome proprio in analogia all'uso dei canarini nelle miniere di carbone come primo sistema di allarme. Prima di restituire il controllo all'istruzione puntata dal RA, si controlla se la canary word ha subito alterazioni: eventuali modifiche vengono considerate come un potenziale tentativo di alterare il controllo dell'esecuzione del programma e quindi di attacco. La tecnica adottata da StackGuard è efficace solo se l'attaccante non è in grado di prevedere la canary word, in questo caso sarebbe infatti in grado di progettare l'overflow in modo da sovrascrivere la canary word con il suo valore originale: StackGuard a questo scopo esegue la randomizzazione del canary.[21] Difese a livello di sistema operativoMolti sistemi operativi hanno tentato di rispondere al problema del buffer overflow imponendo delle restrizioni sull'uso della memoria e rendendo quindi più complessi gli attacchi. Un meccanismo di difesa a livello di sistema operativo molto diffuso si basa sul rendere certe pagine di memoria, come quelle contenenti stack e heap, non eseguibili: ogni tentativo di trasferire il controllo dell'esecuzione a codice all'interno di queste aree solleva quindi un'eccezione, impedendone l'esecuzione. Ciò può essere realizzato sfruttando certe funzionalità hardware dei processori note come "NX" ("No eXecute") bit o "XD" ("eXecute Disabled") bit, oppure tramite tecniche software che emulano questo funzionamento. Alcuni sistemi operativi basati su UNIX come OpenBSD e OS X supportano direttamente lo executable space protection, per altri SO è invece disponibile attraverso estensioni opzionali come: Le versioni più recenti di Microsoft Windows lo supportano sotto il nome di Data Execution Prevention (DEP) (o protezione esecuzione programmi).[25] Un'altra tecnica di difesa a livello di sistema operativo è l'address space layout randomization (ASLR) che consiste nel rendere parzialmente casuale l'indirizzo delle funzioni di libreria e delle aree di memoria più importanti; ciò rende più complessa (ma non impossibile) l'esecuzione di codice tramite exploit perché costringe l'attaccante a cercare l'indirizzo del codice da eseguire tramite una serie di tentativi rilevabili sia dalla vittima, sia da eventuali SW di protezione.[26] Note
Bibliografia
Voci correlateCollegamenti esterni
|