RU/2: Форум. Общение пользователей и разработчиков OS/2 (eCS). : Ответить на сообщение

Имя:
e-mail:
FIDO:
Home page:
сохранить данные о вас

Тема:

> > К символам в неизвестно какой кодировке в PDF-е прилагается шрифт именно в этой кодировке. Этого вполне достаточно для того, чтобы человек на экране видел правильные буквы, но совершенно недостаточно для того, чтобы программа могла определить, какой код символа какой букве алфавита соответствует. (И не забывай - у каждого использованного в документе шрифта получается своя собственная кодировка.)
> Что-то с чем-то не стыкуется.
> Из массы документов прекрасно извлекается текст.
> Вот только что взял распечатанную doPDF веб-страничку - выделил фрагмент (русского) текста и скопировал его и в "Блокнот" и в "цопи цон". Причём это сделал и Acrobat Reader и PDF-XChange Viewer.
> "Призрака" сейчас под руками нет, но и в нём работает извлечение текста. Вот только насчёт русского не помню.
> 
> P.S. Нет, я не спорю, что есть документы без текстового слоя, есть, наверное, и документы из которых извлекается мусор, а не текст, но глобальность проблемы кажется мне преувеличенной.
> 
> P.P.S. Честно скажу, что описание кодировок текста в спецификации PDF "не вкурил" :)

__, _, __, _,_ __, _, _, _, \|_) / \ \|_) \| \| \|_) \| / \ / _ \| \ / \| \| \| \| \| , \ / \ / ~ ~ ~ `~' ~ ~~~ ~ ~