Précédent Suivant Index

L'installation des logiciels biologiques à l'Institut Pasteur

Les logiciels de biologie

Tous les jours, vous utilisez des logiciels de recherche en biologie. Blast, Phylip, Treetool, SeaView, etc. Tous ces logiciels sont installés sur la machine principale du campus, central.pasteur.fr et gérés par le SIS. Vous pouvez les utiliser sur cette machine 1 . central.pasteur.fr a actuellement plus de 300 logiciels biologiques installés, ce qui est rarement le cas dans des environnements analogues.

Lorsque vous utilisez ceux qui sont sur central.pasteur.fr, il y a quelques questions que vous vous êtes peut-être déjà posées. Qui les installe ? Pourquoi manque-t-il tel ou tel logiciel ? Pourquoi tel logiciel qui, d'après un collègue, fonctionne à Infobiogen ne marche-t-il pas ici ? Cet article a pour but d'expliquer le cadre dans lequel sont installés et gérés ces logiciels.

Qui écrit ces logiciels ?

Des chercheurs qui ne sont pas informaticiens, essentiellement. Des statisticiens, des algorithmiciens, des biologistes comme vous, ayant rarement (en tout cas pour la génération actuelle) suivi de cours organisé en programmation. Ils ont appris à programmer sur le tas. Il est possible que cela change dans le futur mais c'est l'état actuel.

Progiciels contre logiciels de recherche

Un progiciel est un logiciel comme MS-Word, livré dans un bel emballage avec un joli dessin dessus. Il est théoriquement débogué et doit fonctionner tel quel, dès sa sortie de la jolie boîte. Les programmes de biologie, au contraire, sont de la recherche brûlante. Ils ont parfois été écrits récemment, évoluent souvent très vite, et l'auteur était plus soucieux de les mettre en circulation rapidement que de les déboguer, ce qui est une opération longue et pénible. Il ne faut donc pas attendre le même poli que celui qui vient (théoriquement) avec un progiciel commercial.

Ingénierie logicielle et logiciels de biologie

En effet, l'auteur des logiciels de biologie met l'accent... sur la recherche en biologie. Il ne pense pas à l'ingénierie informatique. Cet absence d'intérêt pour les problèmes spécifiquement informatiques, jointe au fait que les auteurs soient très souvent autodidactes (et donc ne connaissent pas des tas de concepts qui leur seraient utiles), se traduit par des logiciels dont les aspects techniques de la réalisation ont parfois été un peu négligés.

Ainsi, l'installation de ces logiciels est en général plus laborieuse que celle de logiciels conçus par des informaticiens. Il n'y a pas en général de procédure automatique, il faut lire une documentation et beaucoup deviner.

Le travail de l'équipe gensoft

gensoft, gensoft@pasteur.fr, désigne le groupe de personnes (à l'heure actuelle Catherine Letondal, Bernard Caudron, Nicolas Joly, Frédérique Galisson, Louis Jones et Annick Thébault) qui installe les logiciels biologiques à l'Institut Pasteur. Leur travail est visible sur le Web, en http://bioweb.pasteur.fr/ , qui présente les logiciels installés, donne accès aux documentations, aux serveurs Web d'origine de ces programmes, etc.

Quels logiciels l'équipe gensoft installe-t-elle ?

Actuellement, gensoft essaye de tout installer. Cela veut dire que tout logiciel qui semble intéressant en biologie, si sa licence le permet (voir la section Introduction au droit sur les problèmes juridiques) et s'il n'y a pas d'obstacle technique majeur, est installé. Cela implique une veille technologique, comme la participation à des conférences ou bien la lecture du forum bionet.software.

Évidemment, un programme particulier peut toujours échapper à la vigilance de gensoft. Dans ce cas, n'hésitez pas à le signaler. Toutes les demandes seront satisfaites, sauf problèmes analogues à ceux cités plus haut.

Il a été parfois regretté que gensoft ne propose pas de choix touts faits. C'est parce que la recherche implique un large éventail de possibilités. S'il est normal d'imposer aux comptables d'une entreprise d'utiliser tous le même tableur, on ne peut pas faire la même chose pour des biologistes. Ceux-ci sont des chercheurs, qui ont la liberté et la responsabilité d'analyser les outils mis à leur disposition, afin de choisir le plus adapté.

Si vous souhaitez un environnement plus dirigiste, le programme GCG est là pour cela.

En quoi consiste une installation ?

Les logiciels du monde micro sont en général livrés avec un programme d'installation : on clique et ça installe. Ou bien cela dit pourquoi. Pour une machine individuelle, c'est souvent suffisant.

Mais les logiciels du monde Unix ne sont pas faits ainsi. S'ils sont écrits par des informaticiens, ils ont en général une procédure d'installation automatique, plus austère que celle des logiciels micro mais simple. Mais, dans la réalité, nos logiciels de biologie ne sont pas comme cela. Il n'y a souvent pas de procédure d'installation documentée, il sont souvent livrés sous forme de code source qu'il faut compiler 2 .

La compilation n'est pas le plus difficile : seul l'ordinateur travaille pour la réaliser. Mais l'installation que fait gensoft consiste surtout à homogénéiser les répertoires de documentation, de banques de séquences, de fichiers de paramètres, de façon à ce que l'utilisation d'un logiciel soit plus facile, une fois qu'on en connaît d'autres3 .

C'est entre autre pour cela qu'il est plus compliqué d'installer un programme pour tous les utilisateurs de central.pasteur.fr que de l'installer pour soi seul dans son répertoire personnel.

gensoft va donc essayer de comprendre comment marche ce logiciel, l'installer à la main, prévoir un mécanisme pour donner accès à la documentation 4 , etc.

Enfin, tout ce travail nécessite une étroite collaboration avec les auteurs, pour résoudre des problèmes que nous n'arrivons pas à traiter seuls ou bien pour transmettre aux auteurs le résultat de nos travaux, afin qu'ils améliorent le logiciel. La communication est donc intense avec eux.

Quels choix sont faits ?

Il y a donc parfois des choix d'installation à faire. En général, ces choix visent à homogénéiser le logiciel par rapport aux autres logiciels installés sur central.pasteur.fr. cela peut donc amener une divergence par rapport à d'autres installations. Infobiogen, par exemple, n'aura pas forcément la même politique.

Les problèmes techniques

Pour donner une idée des problèmes rencontrés lors de ce travail, voyons quelques ennuis fréquents en informatique. Les personnes sensibles peuvent sauter cette section dans son entièreté.

L'informatique en général

Ainsi, les ordinateurs et leur logiciel de base (le système d'exploitation) sont différents. Si l'auteur a développé sur un PC avec MS-Windows NT, rien ne garantit que son programme tournera sur Unix.

Même s'il a développé sur un PC/Linux, on ne peut pas être sûr que son programme marchera bien sur une Alpha/Linux, les deux processeurs étant différents. Il faudra au minimum recompiler (le langage machine n'est pas le même) et parfois modifier le programme).

Même sur un processeur donné et un Unix donné, rien ne garantit que nous disposons de la même bibliothèque graphique (certains programmes dépendent de logiciels commerciaux que nous n'avons pas) ou tout simplement de la même version du logiciel de base de données dont le programme dépend.

Les calculs numériques

L'une des plus grosses différentes entre les processeurs des machines (le processeur Alpha, l'Intel Pentium, le PowerPC, etc.) réside dans leur traitement des nombres réels. Ainsi, l'Alpha, par défaut, arrête le programme qui fait une division par zéro, alors que le Pentium trouve cela normal et continue. Une bogue de ClustalW a été trouvée ainsi.

Suppositions risquées

Beaucoup de programmes informatiques ont des problèmes avec des suppositions qu'ils font sur l'environnement, suppositions qui s'avèrent fausses dans certains cas5 . C'est bien sûr le cas de la fameuse bogue de l'an 2000 mais cela peut arriver aussi avec des programmes qui ne manipulent pas les dates. C'est ainsi que Phylip a eu des problèmes avec des longueurs de séquences qui nécessitaient plus de cinq chiffres, car la place pour les mettre manquait (l'auteur n'avait pas pensé que cela puisse servir). De même, Blast 1 avait des ennuis avec les dernières versions de Genbank, trop grosses pour lui. Là encore, les auteurs avaient sous-estimé le rythme de croissance des banques.

Les problèmes de licence

Introduction au droit

S'il est de tradition dans le monde éducation/recherche (« gensoft ») d'ignorer les problèmes juridiques, cela n'est pas toujours possible. Les logiciels sont soumis au droit, qui réglemente leurs conditions d'utilisation et de distribution. Contrairement à une légende tenace, il n'y a pas de dérogation pour l'éducation/recherche. Il y a des logiciels qui offrent des conditions plus avantageuses pour ce type d'utilisation mais ce n'est pas une règle générale. Bref, ne vous dites pas « Je travaille pour la recherche donc j'ai certainement le droit d'utiliser gratuitement ce logiciel ».

Tout logiciel a (normalement) un copyright et une licence.

Le copyright indique qui est l'auteur, le propriétaire du droit moral sur ce logiciel. Par exemple, ce document est ©Stéphane Bortzmeyer. C'est le détenteur du copyright qui choisit la licence.

La licence spécifie les règles d'utilisation et de distribution du logiciel. Elle dira par exemple « Utilisation gratuite pour la recherche ». S'il n'y a pas de licence pour un logiciel (ce qui est hélas un cas courant pour les logiciels écrits par des chercheurs), la règle de droit est que vous ne pouvez rien faire avec ce logiciel 6 .

L'installation de chaque logiciel nécessite donc une vérification de sa licence (Devons-nous payer ? s'enregistrer ? signer un papier ?), si elle n'est pas trouvée, il faut demander au détenteur du copyright.

Les logiciels libres

Les logiciels libres, contrairement à une idée répandue, ne sont pas dépourvus de licence. Puisque, au moins dans les pays de l'Union Européenne, pas de licence égal aucun droit, c'est au contraire leur licence qui les rend libres.

Libres, cela veut dire notamment que vous pouvez librement les utiliser et les redistribuer, même après modifications. C'est très différent d'un programme gratuit7 . Phylip, par exemple, est gratuit pour la recherche mais n'est pas un programme libre : vous ne pouvez pas le distribuer sans autorisation.

Les paquetages Debian

Vous pouvez aussi envisager d'installer des programmes de biologie sur votre propre machine. S'ils ne dépendent pas des grosses banques de séquence qui sont installées sur central.pasteur.fr8 , ils peuvent très bien tourner sur un PC ordinaire. Pour une machine dotées des systèmes d'exploitation mono-utilisateurs comme MacOS ou MS-Windows, voir ftp://ftp.pasteur.fr/pub/GenSoft/. Cette section parle des paquetages pour le système Debian/Linux.

Distributions binaires

Vous trouverez souvent des programmes déjà compilés, par exemple en http://evolution.bmc.uu.se/~thomas/mol_linux/ . Mais il ne s'agit pas de paquetages : les installer est facile, les désinstaller plus difficile, et leur niveau de qualité est très variable.

De même, ils ne sont pas homogènes dans leur placement de la documentation ou bien de leurs fichiers de données. Et ils peuvent dépendre de bibliothèques extérieures sans que cette dépendance ne soit formellement indiquée.

Paquetages

Les paquetages sont un mécanisme de distribution de programmes déjà compilés et (normalement) faciles à installer. Ils sont homogènes : mêmes règles d'installation, de contrôle, etc. Le SIS gère des paquetages de logiciels de biologie pour le système d'exploitation Debian/Linux.

Vous trouverez toutes les informations sur ces paquetages Debian en http://www.pasteur.fr/units/sis/debian/biology.html .

Conclusion

Ces logiciels sont évidemment là pour la recherche en biologie. C'est donc votre opinion, en tant qu'utilisateur de l'informatique ici, qui déterminera les évolutions futures dans ce domaine. Quels logiciels voudriez-vous ? Que manque-t-il ? Qu'est-ce qui est complètement inutile et pourrait être abandonné ? Etc. L'équipe gensoft, gensoft@pasteur.fr est à l'écoute.

Si vous programmez, je ne saurais trop vous conseiller de prêter attention aux problèmes des gens qui installeront votre logiciel. gensoft est prêt à vous aider dans cette tâche.



Stéphane Bortzmeyer


Édité par :
Service Informatique Scientifique
Institut Pasteur
28 rue du Docteur Roux
75724 Paris CEDEX 15
Tél. : +33 (1) 45 68 85 10
Fax. : +33 (1) 40 61 30 80
Câble : mcb@pasteur.fr

Les contributions et suggestions
sont à adresser à :
Laurent Bloch   bloch@pasteur.fr
Directeur de la publication :
Maxime Schwartz
ISSBN : 1244-524 X

Copyright © Institut Pasteur






Précédent Suivant Index