PDF : les logiciels indispensables et gratuits

Chloé Claessens
Spécialiste logiciels
29 juin 2020 à 11h00
0

Introduction

PDF

Mise en page figée, polices intégrées, textes dynamiques, annotations, signatures, travail collaboratif : le PDF est aujourd'hui si répandu qu'il est impossible de ne pas y avoir été confronté au moins une fois dans sa vie. Pourtant, malgré sa popularité et sa normalisation en 2008, il n'est pas toujours évident de dénicher les bons outils gratuits pour le lire, le manipuler, le numériser.

Si le PDF connaît aujourd'hui un succès planétaire, il n'en a pas toujours été ainsi. Pour comprendre comment ce format propriétaire s'est mué en standard incontournable, il faut remonter au début des années 1970.

De la modélisation du port de New York...

À l'époque, la société Evans and Sutherland (E&S) domine le marché de l'infographie. Bien qu'installée à Salt Lake City, elle dispose d'un petit laboratoire de recherche à Mountain View, dirigé par John Warnock. Chargé de développer un interpréteur de bases de données infographiques 3D du port de New York pour le terminal CAD/CAM Picture System et différents générateurs d'images de simulation E&S, il embauche John Gaffney. En 1975, Gaffney présente la première version documentée d'un nouveau langage interprète basé sur Forth : The Evans and Sutherland Design System.

En 1978, Warnock quitte E&S et intègre le Laboratoire des Sciences de l'Imagerie du Xerox PARC. Sous la direction de Chuck Geschke, il fait équipe avec Martin Newell et s'inspire du Design System de Gaffney pour créer JaM (« John and Martin »), langage de description de page également basé sur Forth. Durant cette même période, les chercheurs du PARC ont successivement sorti les imprimantes XGP, EARS et Dover. Or, chaque imprimante faisant appel à son propre interpréteur, il n'a pas fallu longtemps pour comprendre qu'un standard de description de page devait être mis au point.

À partir de ce constat, JaM a évolué en Press sous la direction de Bob Sproull et William Newman. Il s'agissait d'un format plutôt que d'un langage, indépendant des modèles d'imprimantes sur lesquelles il opérait. Son manque de flexibilité et les nombreux défauts dont il souffrait ont poussé Warnock et Geschke à retravailler JaM et Press. C'est ainsi qu'est né Interpress.

Hélas pour Warnock et Geschke, Xerox rechigne à commercialiser Interpress dont l'implémentation restera réservée à certaines imprimantes Xerox. Les deux informaticiens quittent le PARC en 1982 et co-fondent Adobe Systems.

... aux débuts de l'aperçu avant impression

À la tête de leur entreprise, Geschke et Warnock voient dans Adobe Systems l'opportunité d'une seconde chance pour Interpress. Ce dernier étant demeuré propriété de Xerox, ils travaillent à un nouveau langage de description de page baptisé PostScript. Cross-plateforme, il regroupe dans un fichier PS tous les éléments décrivant une page : texte, images, polices de caractères, etc.

D'un point de vue technique, PostScript a besoin d'un Raster Image Processor pour être lu par le pilote d'impression. Un RIP est un outil capable de tramer des données (ici celles contenues dans le fichier PS) pour les retranscrire dans des fichiers bitmap (images matricielles), et ainsi les rendre imprimables. Pour résumer, le RIP permet d'imprimer la représentation graphique des descriptions PostScript qu'il interprète.

Commercialisé pour la première fois en 1984, PostScript connaît un tournant décisif en 1985 avec la sortie de la LaserWriter. Pour rappel, cette imprimante vendue par Apple a largement contribué au développement de la publication assistée par ordinateur. Intégrant nativement un interpréteur PostScript et compatible avec PageMaker (créé par Aldus, racheté par Adobe, progressivement remplacé par InDesign), la LaserWriter offrait au grand public la possibilité d'imprimer des compositions graphiques telles que représentées à l'écran (WYSIWYG). Grand moment dans l'histoire de la PAO.

Mais PostScript éprouve ses limites, toutes liées de près ou de loin à l'utilisation d'un RIP. En tant que langage, PostScript peut décrire une même page de plusieurs manières. À cette imprévisibilité s'ajoute le besoin de connaître les caractéristiques du dispositif d'impression utilisé, ainsi que les difficultés d'interprétation liées aux RIP. Deux RIP PostScript n'interprèteront pas forcément une même description PostScript de la même manière.

Autre défaut : la rastérisation abaisse considérablement la qualité des images à l'impression. Pour pallier ce problème, Adobe développe le format EPS (Encapsulated PostScript), permettant de conserver les caractéristiques vectorielles d'un document et donc d'imprimer des images de haute qualité, aux contours nets. Par ailleurs, les fichiers EPS encapsulant leur propre prévisualisation, ils permettent aux applications dénuées d'interpréteur PostScript d'afficher à l'écran une représentation graphique basse résolution de la description PS avant impression. Un format autonome qui prépare le terrain du PDF.

Naissance du PDF : porter PostScript à l'écran

S'il est aujourd'hui commun d'affirmer que le PDF remplace PostScript, il s'agit d'un abus de langage. En réalité, le PDF est une évolution du format EPS. À l'instar de son prédécesseur, il est bâti sur PostScript et contient la prévisualisation de sa représentation graphique. Mieux encore, il contient sa représentation graphique déjà retranscrite par un RIP PostScript.

Par ailleurs, alors que PostScript se contente de décrire une page, le PDF est également en mesure de décrire comment se comporte cette page et quels types d'informations elle intègre. En plus des traditionnels textes, images, polices de caractère décrit par PostScript, le PDF embarque les instructions d'impression, le support des mots clés pour la recherche et l'indexation du document, des liens hypertextes, des vidéos, etc.

Il s'agit donc d'un format hautement interactif, portable puisque multiplateforme et indépendant de tout appareil ou logiciel, qui permet l'affichage visuel du document à l'écran tel qu'il sera une fois imprimé. Une fonctionnalité qui manquait cruellement à PostScript. En effet, il est désormais possible de visualiser en détail le résultat après interprétation et avant envoi pour impression. Les bénéfices sont nombreux : réduction significative du nombre d'erreurs, corrections de dernières minutes, impressions plus rapides, économies de papier.

Décrit par Warnock pour la première fois en 1991, le projet Camelot aboutit au lancement officiel d'Acrobat le 15 juin 1993. Derrière ce nom, deux éléments : le format (PDF) et le logiciel (Acrobat Reader, disponible sur Windows, Mac, Unix).

La reconnaissance du PDF s'est faite progressivement. Il faudra attendre 2008 pour que le format soit normalisé sous l'appellation ISO 32000. Une consécration qui garantit son développement et sa pérennité alors qu'on estimait à plus d'un milliard le nombre de PDF en circulation dans le monde en 2013.

Il faut enfin préciser que le PDF a toujours été considéré comme un standard ouvert. Les logiciels de gestion autres qu'Acrobat Reader sont monnaie courante, et certains outils de traitement de texte comme MS Word intègrent des options d'importation / exportation PDF. En revanche, tous ne se valent pas et il faut parfois cumuler les solutions spécialisées (lecture / édition / numérisation) si l'on ne souhaite pas mettre la main au portefeuille.

Les outils pour bien lire ses PDF

Aujourd'hui, la plupart des navigateurs embarquent leur propre visionneuse PDF. Néanmoins, la nécessité d'une connexion à Internet et le manque d'options complémentaires basiques justifient le recours à des logiciels spécialisés.

Acrobat Reader DC

Conjointement au déploiement grand public du PDF, Adobe a commercialisé la première version d'Acrobat Reader en 1993. Il fallait à l'époque débourser 50 dollars pour acquérir la licence sur DOS. Un an plus tard, le logiciel débarque sur Windows et Mac OS.

Aujourd'hui rebaptisé Acrobat Reader DC et distribué gratuitement, l'outil n'a plus à prouver sa légitimité sur les terrains de la lecture et de l'impression PDF. La clarté de son interface en fait une solution à portée des utilisateurs les moins expérimentés qui profitent également d'options d'édition basiques : surlignage / soulignage du texte, ajout de commentaires, remplissage de formulaires, signature des documents. La recherche de signets et de pièces jointes facilite la navigation au sein des fichiers les plus volumineux, tout comme l'affichage par vignettes grâce auquel on accède rapidement à une page spécifique.

acrobat reader dc

L'un des atouts majeurs d'Acrobat Reader DC réside justement dans le « DC ». Avec la fonction Document Cloud, Adobe offre à ses utilisateurs un espace de stockage en ligne gratuit directement lié à leur application de bureau. Outre l'accès à ses PDF depuis n'importe quel appareil connecté à Internet, il est possible de partager des documents à annoter avec ses contacts, qu'ils soient abonnés ou non aux services Adobe.

Malgré sa perfection apparente, Acrobat Reader DC n'est pas exempt de défauts. On pourrait lui reprocher un comportement parfois trompeur alors que de nombreuses options intégrées à l'interface renvoient à la version payante du logiciel. Son poids (environ 350 Mo) fait également l'objet de critiques récurrentes.



Foxit Reader

Disponible pour les systèmes Windows, macOS et GNU/Linux (Ubuntu, Red Hat, OpenSUSE), Foxit Reader se déploie dans une interface plus austère mais familière, composée d'une zone de lecture et d'un ruban d'outils, à la manière des logiciels de la suite Office.

Légèrement moins lourd qu'Acrobat Reader DC (300 Mo), il se démarque surtout par ses options d'édition et de manipulation très fournies. En plus de gérer l'ajout de commentaires, la recherche de mots, de pages et de pièces jointes, le remplissage de formulaires, la signature de documents et le soulignage / surlignage de texte sélectionné, Foxit Reader autorise l'intégration de fichiers multimédias au document, la création de zones de texte, l'insertion de nouveaux signets, la gestion des calques.

foxit reader

Foxit Reader doit sa flexibilité à sa compatibilité avec de nombreux plug-in et services connexes. On pense à l'intégration de solutions de sauvegarde en ligne comme Google Drive, Dropbox et OneDrive qui facilitent le partage de fichier et le travail collaboratif, mais également au support pour DocuSign grâce auquel les documents signés revêtent un caractère officiel.

Point remarquable, Foxit Reader embarque un gestionnaire de confiance personnalisable. Selon le degré de sécurité souhaité, il est possible de désactiver tout ou partie des URL, ainsi que d'empêcher l'exécution de fonctions JavaScript.



Sumatra PDF

Avec son interface vieillotte et ses fonctionnalités basiques, Sumatra PDF ne paie vraiment pas de mine. Pourtant, il s'agit-là d'une visionneuse facile à appréhender, rapide et extrêmement légère (14 Mo). Disponible pour Windows uniquement, le logiciel est le seul des trois présentés à bénéficier d'une version portable. Un argument de poids pour qui souhaite ouvrir des PDF sur des équipements tiers, non connectés à Internet et / ou à la configuration faiblarde.

Chez Sumatra PDF, pas d'options d'édition avancées. Le lecteur offre quelques outils de navigation qui permettent de rechercher des mots dans le document, d'afficher une page spécifique ou de se rendre à un signet. Des paramètres supplémentaires permettent d'adapter l'affichage du PDF en fonction des préférences de lecture propres à chacun : page simple, page double, vue continue, mode manga.

sumatra pdf

À bien y regarder, Sumatra PDF occupe un terrain partiellement délaissé par Acrobat Reader DC et Foxit Reader : celui de la lecture pure et dure. En témoigne le support pour les formats ePub, Mobi, DjVu, CBZ et CBR qui parleront aux amateurs d'eBook et de bandes dessinées numériques. Au final, Sumatra PDF s'apparente à une liseuse efficace, sans chichi, ni options superflues.


Conversion, édition et manipulation

Logiciels pour convertir, éditer et manipuler des PDF

Les suites bureautiques comme Microsoft Office (Word) et LibreOffice (Draw) proposent des outils d'édition, de conversion et de manipulation compatibles avec les documents PDF. Toutefois, la prise en charge de ces fichiers est loin d'être optimale : certains signets sautent, la mise en page est déstructurée, etc. Il apparaît donc nécessaire de passer par des solutions dédiées pour apporter des modifications avancées à ses PDF.

PDF24 Creator

PDF24 Creator est un couteau suisse de la manipulation PDF sur Windows. Lecture, conversion, extraction du texte, réorganisation et suppression de pages, création de nouveaux documents à partir de fichiers existants... Ne lui manque que l'édition des contenus pour prétendre à une parfaite autonomie.

Malgré son interface d'apparence spartiate, PDF24 Creator est extrêmement facile à prendre en main. Son double volet de navigation simplifie la recherche de fichiers, tandis que sa zone de travail supporte la gestion simultanée de plusieurs PDF. Il est possible de sélectionner une ou plusieurs pages d'un ou plusieurs documents, de les fusionner, de les supprimer, de les glisser dans un document existant ou dans un nouveau, ou encore de fusionner tous les documents chargés dans le logiciel.

pdf24 creator

PDF24 Creator consiste également en une imprimante virtuelle capable de convertir n'importe quel fichier en PDF à partir des paramètres d'impression d'applications tierces. Une fois la conversion effectuée, le nouveau PDF s'ouvre automatiquement dans PDF24 Creator d'où l'on peut aisément le manipuler avant de l'enregistrer localement.

En marge de son module de création et de conversion, PDF24 Creator embarque une série de fonctionnalités complémentaires accessibles depuis la page d'accueil du logiciel : compression personnalisable des PDF, reconnaissance optique de caractères, capture d'écran, raccourcis vers les outils PDF24 en ligne (verrouillage / déverrouillage, comparaison, superposition, filigrane, signature, rotation, annotations, numéros de pages, etc.).



PDFelement

Mettre le doigt sur un outil d'édition de contenus PDF performant et gratuit s'apparente peu ou prou à la quête du Graal. En théorie, le PDF n'est pas fait pour être directement modifié. Format figé pour un partage et une lecture optimisés, la logique voudrait que l'on se contente de l'annoter. Charge ensuite au propriétaire d'effectuer les modifications suggérées non pas dans le document PDF, mais dans le fichier initialement créé sur Word, Illustrator, etc.

La recherche n'est toutefois pas désespérée et certaines solutions disposent d'outils permettant la modification directe de contenus PDF. C'est le cas de PDFelement, disponible sur Windows et macOS, capable de détecter les zones de texte et de les rendre éditables.

PDFelement se déploie dans une interface moderne, franchement similaire à celle de Microsoft Word (affichage, couleurs, disposition des menus). Le risque de se sentir perdu lors d'une première utilisation du logiciel est donc minime.

pdfelement

Pour modifier le texte d'un document, il faudra prendre soin de sélectionner l'outil « Modifier du texte ou des images », accessible depuis n'importe quel menu du ruban. PDFelement identifie automatiquement les zones de texte et permet l'édition directe des contenus (suppression / ajout de mots, sauts de ligne, nouveaux paragraphes, insertions d'images), à la manière d'un traitement de texte classique.

Outre cette fonctionnalité phare, PDFelement embarque une série d'options qui en font un logiciel de gestion PDF plutôt complet : création, conversion depuis et vers le format PDF, fusion, scission, annotations, OCR, remplissage de formulaires, signature, protection par mot de passe, intégration Dropbox et Google Drive.

En version gratuite, PDFelement applique un filigrane sur toutes les pages du document sauvegardé. L'astuce consiste à rouvrir ledit document dans MS Word ou LibreOffice Writer, puis à supprimer les en-têtes de chaque page filigranée.



PDFsam

PDFsam est l'outil du bricoleur numérique, qu'il soit utilisateur Windows, macOS ou GNU/Linux (Debian). Pas de visionneuse ni d'options d'édition, mais une palette de fonctionnalités infaillibles permettant de manipuler les documents à la volée : fusion simple ou alternée, découpage basique, par signet ou par taille, extraction et rotation de pages.

Quel que soit le module sélectionné, PDFsam redirige l'utilisateur vers une page de réglages depuis laquelle il importe un ou plusieurs PDF. Le support du glisser-déposer accélère les opérations, tant concernant le chargement des documents que vis-à-vis de leur réorganisation dans la liste des fichiers importés. Les paramètres de manipulation prédéfinis mais flexibles facilitent la prise en main du logiciel. L'accès aux paramètres avancés garantit une meilleure gestion des signets, de la compression et de la version PDF du document sortant (version d'origine, 1.5, 1.6 ou 1.7).

pdfsam

S'il est libre et gratuit dans sa version de base, PDFsam réserve à ses abonnés Premium de nombreux outils permettant une gestion plus approfondie : réorganisation visuelle des pages par glisser-déposer, suppression de pages, création de documents, modification du texte et des images, conversion PDF vers un autre format.



PDF Candy : manipuler ses PDF en ligne

Ceux qui ne souhaitent pas installer de nouveaux logiciels sur leur ordinateur trouveront bien pratique de recourir à des services en ligne comme PDF Candy .

pdf candy

Accessible depuis n'importe quel navigateur, PDF Candy propose une gestion web des PDF relativement complète, mettant à disposition des outils élémentaires de compression, de fusion, de scission, de conversion, de rotation, de réorganisation, de verrouillage/déverrouillage, de numérotation, d'extraction et d'ajout de texte ou d'images.


Numérisation et reconnaissance de texte

Scanner ses documents et reconnaître le texte

Certains logiciels scanners proposent d'enregistrer les documents numérisés au format PDF. Ce n'est cependant pas le cas pour tous, et il faut parfois bidouiller pour arriver à ses fins. Parmi les solutions artisanales possibles : ouvrir l'image scannée et l'imprimer à l'aide d'une imprimante virtuelle comme celles de PDF24 ou d'Adobe, insérer l'image numérisée dans un logiciel de traitement de texte (Word, Writer) et la sauvegarder au format PDF, passer par un logiciel de conversion et convertir l'image au format PDF. Les manipulations sont parfois longues et le résultat n'est pas toujours probant, en particulier pour les documents composés de plusieurs pages.

NAPS2

Pour gagner du temps, certaines solutions de numérisation gèrent l'enregistrement automatique des documents scannés au format PDF. C'est le cas de NAPS2 (Not Another PDF Scanner 2) qui, en plus de gérer le PDF, propose la sauvegarde des documents aux formats JPEG, Bitmap, EMF, EXIF, GIF, PNG et TIFF. Mieux encore, à partir de plusieurs numérisations, le logiciel est capable de combiner les pages dans un seul document PDF.

NAPS2 est open source, gratuit et disponible pour Windows et Linux. Compatible WIA et TWAIN sur Windows, il s'adapte aux scanners les plus anciens. Outre la prise en charge des imprimantes personnelles, on lui reconnaît le support pour les ADF, inverseurs comme duplex.

La configuration d'une imprimante sur NAPS2 ne pose pas de souci particulier. Il suffit de sélectionner le périphérique d'impression, le pilote compatible, la source du papier, la taille de la page. Il est éventuellement possible de modifier les préréglages concernant la résolution (100ppp à 1200ppp), la profondeur d'échantillonnage, l'alignement horizontal, l'échelle, les variations de luminosité et de contraste. Bon à savoir : NAPS2 est en mesure de gérer plusieurs profils d'imprimantes et de réglages.

naps2

Depuis son interface principale, NAPS2 autorise la réorganisation par glisser-déposer des pages numérisées. L'enregistrement en PDF se fait d'un clic sur le bouton éponyme. Quelques outils d'édition basiques autorisent la rotation, le redimensionnement, le recadrage des pages scannées.

Il est enfin important de mentionner l'option OCR intégrée à NAPS2. Compatible avec de très nombreux dictionnaires de langue téléchargeables depuis le logiciel, la fonctionnalité repère efficacement le texte image et le transforme en texte exploitable au moment de la création du PDF. Il est alors possible d'extraire ce texte du document final et de l'éditer dans n'importe quel traitement de texte.



SimpleOCR

S'il intègre un scanner PDF, SimpleOCR se démarque surtout par son module de reconnaissance optique de caractères.

Disponible sur Windows, SimpleOCR détecte le texte et les illustrations qui composent un fichier PDF. Capable de préserver la mise en page du document, il embarque des options de révision qui permettent à chacun de corriger manuellement les erreurs de reconnaissance. Une fois les modifications effectuées, l'utilisateur peut exporter le texte reconnu dans un fichier Word ou texte, d'où il pourra librement l'éditer.

simpleocr

De manière générale, SimpleOCR commet assez peu d'erreurs dans la reconnaissance de textes tapuscrits et fait gagner un temps précieux à celui qui l'utilise. Néanmoins, il faut s'astreindre à travailler avec une interface vraiment datée, exclusivement en anglais, souvent peu intuitive. Les intitulés d'options sont parfois confus, corsant la prise en main du logiciel. Par ailleurs, une fois la reconnaissance optique de caractères lancée, impossible de revenir en arrière. Il faudra nécessairement démarrer un nouveau projet. Ces quelques difficultés ne sont cependant pas insurmontables pour qui fait preuve de patience et de persévérance.



Adobe Scan

De plus en plus d'applications mobiles remplacent les scanners traditionnels. Adobe Scan se propose de numériser formulaires, documents, cartes de visite et tableaux blancs, sur Android comme sur iOS. Le résultat est plus que convaincant, alors qu'il est possible de réajuster manuellement les bordures, et ainsi de définir précisément le périmètre de numérisation.

adobe scan

Une fois le document scanné, Adobe Scan procède au traitement automatique de l'image et à la reconnaissance optique de caractères. Il suffit d'enregistrer le nouveau fichier, sauvegardé dans le Document Cloud de l'utilisateur, puis de l'ouvrir avec une autre appli mobile de lecture PDF ou de le télécharger localement sur son ordinateur. Il est également possible de scanner successivement différents documents et de créer des PDF de plusieurs pages.

Les erreurs d'OCR sont presque inexistantes. Chacun peut aisément copier-coller le texte détecté dans n'importe quel logiciel de traitement de texte. Il faut tout de même signaler quelques couacs post-copie. Il arrive que le texte importé subisse l'ajout arbitraire d'espaces en milieu de mots. Il faudra dans ce cas les supprimer manuellement.

Modifié le 03/07/2020 à 16h46
3
4
Partager l'article :
Voir tous les messages sur le forum

Les actualités récentes les plus commentées

Voiture électrique : combien coûte la recharge à domicile ? (MàJ Juillet 2020)
En réponse à des accusations de harcèlement des têtes tombent chez Ubisoft
Bosch dévoile son vélo concept électrique et tout suspendu
L'administration Trump va bientôt se passer des entreprises qui utilisent des appareils Huawei
L'Union européenne mise sur le développement d'un hydrogène propre
Far Cry 6 confirmé par Ubisoft, la présentation programmée au 12 juillet
Microsoft Flight Simulator sortira le 18 août sur PC
Thunderbolt 4 : 40 Gb/s ,mais Intel veut du 32 Gb/s en PCIe et la prise en charge double 4K
Taxe GAFA : 1,3 milliard de dollars de frais de douane pour la France... et 6 mois pour changer la donne
Apple recommande de ne pas fermer votre MacBook si vous en cachez la webcam… voilà pourquoi
scroll top