En informatique, la notion d’analyse statique de programmes couvre une variété de méthodes utilisées pour obtenir des informations sur le comportement d'un programme lors de son exécution sans réellement l'exécuter.
C'est cette dernière restriction qui distingue l'analyse statique des analyses dynamiques (comme le débugage ou le profiling) qui s'attachent, elles, au suivi de l’exécution du programme.
L’analyse statique est utilisée pour repérer des erreurs formelles de programmation ou de conception et pour déterminer la facilité ou la difficulté à maintenir le code.
Éléments d'histoire
Les premières idées d'analyse statique se trouvent dans les toutes premières recherches sur les ordinateurs naissants, à la fin des années 1940[1]. Le système construit était alors moins cher que l'accès à la ressource (l'ordinateur). Ce qu'on appelle maintenant les preuves de programmes sont les premières traces d'analyse statique et on en trouve la démonstration dans la conférence d'Alan Turing[2] en 1949, puis plus tard dans le travail sur les méthodes formelles dans les organigrammes de Robert Floyd[3] et enfin dans la logique de Hoare.
Méthodes formelles
L’analyse statique englobe une famille de méthodes formelles qui dérivent automatiquement de l’information sur le comportement de logiciels ou de matériels informatiques. Une application possible de l’analyse statique est l’aide automatisée au débogage, en particulier la recherche d'erreurs à l’exécution – grosso modo, des événements qui poussent le programme à « planter ». Parmi les erreurs les plus courantes en ce genre, on peut citer les fautes de frappe pures et simples, notamment pour les langages de programmation sensibles à la casse, les formules faisant intervenir des variables non initialisées ou même non-déclarées, les références circulaires, l'emploi de syntaxes non-portables.
L’analyse de programmes (y compris la recherche d'erreurs possibles à l'exécution) n'est pas déterministe : il n’existe aucune méthode « mécanique » qui peut toujours dire sans se tromper au vu d’un programme si celui-ci va ou non produire des erreurs à l’exécution. C’est là un résultat mathématique fondé sur des résultats d'Alonzo Church, Kurt Gödel et Alan Turing dans les années 1930 (voir le problème de l'arrêt et le théorème de Rice).
Cependant, l’application d’un certain nombre de principes lors du codage permet de réduire le risque d'erreurs à l’exécution ; ces principes offrent en outre l’avantage de faciliter la maintenance du code. Par exemple, le fait de ne pas combiner une affectation et un test réduit le risque lié à l’ordre dans lequel les instructions sont exécutées. Autre exemple : le fait d'avoir des instructions de branchement imbriquées sur trop de niveaux est généralement l’indice d’une complexité du code, qui induit une difficulté à le comprendre et à le tester par la suite. Ce genre de motifs (ou patterns en anglais) sont retrouvés en analysant l’arbre syntaxique du code à l’aide d'un parser, de règles de codage et de métriques.
Il existe deux grandes familles d’analyses statiques formelles de programmes :
le model checking considère des systèmes à état fini, ou qui peuvent être réduits vers des systèmes à états finis par abstraction ;
l’analyse statique par interprétation abstraite permet d’obtenir une approximation du comportement du système[4].
Une autre méthode d'analyse statique, parmi les plus empiriques, consiste à faire lire le code source d'une application par une personne expérimentée mais extérieure à l’équipe de développement. Ceci permet de porter un regard neuf sur le code, du point de vue de sa conception comme de sa réalisation.
La relecture de code peut être guidée par des résultats obtenus par des méthodes d'analyse automatique du code, notamment parmi celles qui cherchent à évaluer la complexité du code et le respect de règles éventuelles de codage.
Outils d'analyse statique
Le premier outil d’analyse statique de programme est l'utilitaire lint développé à la fin des années 1970 pour le langage C[5]. L’intérêt du monde industriel pour des outils d'analyse statique, spécialement pour le développement de logiciels critiques, s’est développé à la suite de l’explosion du vol inaugural de la fusée Ariane 5 à cause d'un bug informatique – sans doute un des bugs les plus chers de l'histoire[6]. Depuis la fin des années 1990, la plupart des compilateurs intègrent une analyse statique de code source plus ou moins poussée, ne serait-ce que comme composant de base de leurs options d’optimisation de code. Les fonctionnalités d'indentation automatique et de commentaires sont, elles, le plus souvent assurées par l’environnement de développement intégré : on peut donc dire que les programmes d'analyse statique ont été victimes de leur succès, dans la mesure où leurs méthodes ont été intégrées à d'autres outils.
SonarQube : Java, C#, C/C++, Cobol, PL/SQL, ABAP, Javascript, PHP, Web, XML, etc. (logiciel libre pour la plupart des langages, payant pour le C/C++ notamment)
↑(en) Herman Goldstine et John von Neumann, Planning and coding of problems for an electronic computing instrument. Pt. II. Report on the mathematical and logical aspects of an electronic computing instrument , A. H. Taub (direction)m John von Neumann, Collected Works, The Macmillan Co., New York, volume V, p. 34-79.
↑Robert W. Floyd, Mathematical Aspects of Computer Science, vol. 19, American Mathematical Society, coll. « Proceedings of Symposium on Applied Mathematics », , 19–32 p. (ISBN0821867288, lire en ligne), « Assigning Meaning to Programs »
↑(en) Dennis M. Ritchie et Thomas J. Bergin, Jr. et Richard G. Gibson (dir.), History of Programming Languages, vol. II, ACM Press (New York) et Addison-Wesley (Reading, Mass.), (ISBN0-201-89502-1), « The Development of the C Language »