RU/2: Форум. Общение пользователей и разработчиков OS/2 (eCS). : PDF конвертер


Список сообщений | Написать новое | Ответить на сообщение | Домой Поиск:
Предыдущее сообщение | Следующее сообщение
From : Василий А. Сидоров
To : Юрий Пронякин
Subj : PDF конвертер

> К символам в неизвестно какой кодировке в PDF-е прилагается шрифт именно в этой кодировке. Этого вполне достаточно для того, чтобы человек на экране видел правильные буквы, но совершенно недостаточно для того, чтобы программа могла определить, какой код символа какой букве алфавита соответствует. (И не забывай - у каждого использованного в документе шрифта получается своя собственная кодировка.)
Что-то с чем-то не стыкуется.
Из массы документов прекрасно извлекается текст.
Вот только что взял распечатанную doPDF веб-страничку - выделил фрагмент (русского) текста и скопировал его и в "Блокнот" и в "цопи цон". Причём это сделал и Acrobat Reader и PDF-XChange Viewer.
"Призрака" сейчас под руками нет, но и в нём работает извлечение текста. Вот только насчёт русского не помню.

P.S. Нет, я не спорю, что есть документы без текстового слоя, есть, наверное, и документы из которых извлекается мусор, а не текст, но глобальность проблемы кажется мне преувеличенной.

P.P.S. Честно скажу, что описание кодировок текста в спецификации PDF "не вкурил" :)

Fri 15 May 2009 15:06 Mozilla/5.0 (Windows; U; Windows NT 5.2; ru-RU; rv:1.8.1.19)




Programmed by Dmitri Maximovich, Dmitry I. Platonoff, Eugen Kuleshov.
25.09.99 (c) 1999, RU/2. All rights reserved.
Rewritten by Dmitry Ban. All rights ignored.