J'essaie de copier / coller un tas de textes vietnamiens d'un document PDF à Notepad ++ (ou rien, rien ne fonctionne). Le texte collé est différent du texte source. Quel serait le meilleur moyen de résoudre ce problème?
Par exemple:
Texte source: (Voir capture d'écran pour le texte source)
Texte collé: salade de papaye ~ GÕi ñu ñû Tôm
Merci beaucoup.
Edit: Il semble que si la source est un document Word, il copie et colle comme prévu. Le PDF est le problème ici.
C'est parce que le codage utilisé dans le fichier PDF est arbitraire.
À partir de PDF en vietnamien, j'ai trouvé dans les intertubes
" Encodage: personnalisé " signifie probablement un encodage (aléatoire) qui a été conçu pour sa propre commodité par le programme qui a produit ce PDF.
Le « sous-ensemble intégré » signifie que le programme n'avait pas besoin d'un grand nombre de caractères de cette police, donc il a simplement choisi les quelques éléments dont il avait besoin et les arrangeait dans un ordre apparemment aléatoire (peut-être l'ordre dans lequel le programme les rencontrait dans le texte) et les nouveaux inventés Le codage est basé sur cette commande.
Ce n'est pas vraiment "les personnages". Fondamentalement, le PDF n'a plus d'informations universellement significatives sur «quel personnage» il possède. Il s'agit simplement d'un groupe indexé de formes et d'une liste de positions et de tailles où il affiche ces formes indexées.
Wikipedia dit
Les polices codées CID peuvent être effectuées sans référence à une collection de caractères en utilisant un codage "d'identité", tel que Identity-H (pour l'écriture horizontale) ou Identity-V (pour la verticale). Ces polices peuvent avoir chacune un jeu de caractères unique, et dans ce cas, le numéro CID d'un glyphe n'est pas informatif; Généralement, le codage Unicode est utilisé à la place, potentiellement avec des informations supplémentaires.
Donc, vous pouvez essayer de voir s'il est logique dans le codage UTF-16 BE.
J'ai trouvé une solution qui a fonctionné pour moi – mais ne peut pas expliquer pourquoi. Lorsque j'ai ouvert le fichier PDF dans Acrobat, je n'ai pas pu copier et coller les caractères vietnamiens. Cependant, si j'ai ouvert le PDF dans la version de l'application Prévisualisation (j'ai la version 5.5.3 (719.31)) sur mon Mac, je pourrais copier et coller sans problème.