Étape 3: Annexe : commandes d’utilitaire Poppler.
pdftohtml syntaxe
pdftohtml [options] [fichier pdf] [fichier html]
Options disponibles
Un résumé des options sont incluses ci-dessous.
-h, - aider - Show Sommaire des options.
-f - première page à imprimer
-l - dernière page à imprimer
-q - n’affiche pas les messages ou les erreurs
-v - impression copyright et informations sur la version
-p - Echange de liens de .pdf avec .html
-c - génèrent un résultat complexe
-i - ignorer les images
-noframes - ne produire aucune image. Pas pris en charge en mode de sortie complexe.
-stdout - utilisez la sortie standard
-Vroum - Vroum le document pdf (par défaut 1,5)
-xml - sortie pour le post-traitement de XML
-enc - nom encodage du texte de sortie
-opw - mot de passe propriétaire (pour les fichiers chiffrés)
-upw - mot de passe utilisateur (pour les fichiers chiffrés)
extraction de texte - caché - force cachée
-dev - nom du périphérique de sortie pour Ghostscript (png16m, jpeg, etc.)
-nomerge - pas fusionner les paragraphes
-nodrm - substituer les paramètres de document DRM
pdftohtml exemples
pdftohtml test.pdf test.html
Cette commande vous donne un simple fichier HTML approprié pour la lecture ou la copie du contenu textuel du fichier PDF. En fait, vous pouvez saisir le texte de votre navigateur et collez-le dans d’autres applications. Il ne produit pas tous les fichiers PNG, alors vous ne serez pas en mesure de voir tous les graphiques incorporés. Il est d’une grande utilité si vous voulez juste pour extraire le texte à partir d’un fichier Adobe.
Si vous souhaitez voir le graphique, vous devrez utiliser l’option -c (comme « complexe ») :
pdftohtml - ch. test.pdf test.html
Cette option produit des fichiers HTML individuels, un pour chaque page du fichier PDF, avec les références PNG mélangés dans. Les graphiques dans le fichier PDF d’origine apparaissent dans un navigateur et la partie de texte peut être coupée et collée. La taille totale des fichiers HTML et PNG générés avec l’option - c ont tendance à être à peu près équivalente à celle du fichier PDF original.