RU/2: Форум. Общение пользователей и разработчиков OS/2 (eCS). : Ответить на сообщение
Имя:
e-mail:
FIDO:
Home page:
сохранить данные о вас
Тема:
> > Что-то с чем-то не стыкуется. > > на самом деле всё прекрасно стыкуется. > > > Из массы документов прекрасно извлекается текст. > > Согласен: из массы - извлекается. Но попадаются и такие, где кодировка самодельная. > Тут ведь какие варианты возможны: > 1. Урезание шрифтов при создании PDF-а могло быть отключено вообще (редкий случай) > 2. Урезание включено, но процент использованных в документе символов шрифта превышает тот порог, после которого урезание автоматически отключается. > 3. Урезание производилось, но программа, создававшая PDF, производит эту операцию, не меняя кодировку символов. > Во всех этих случаях проблем с извлечением текста, редактированием его в PDF-е, поиском и т.п. не будет. Но если программа урезала шрифты, изменяя попутно их кодировку - проблемы будут. И документы такие попадаются. > > > P.S. Нет, я не спорю, что есть документы без текстового слоя, есть, наверное, и документы из которых извлекается мусор, а не текст, но глобальность проблемы кажется мне преувеличенной. > > Зависит от личного опыта. мне лично преувеличенной кажется необходимость в извлечении текста :-) А по теме зависимости корёжения кодировок Дистиллером от его настроек и параметров печати я несколько лет назад целое исследование проводил, но его результаты обнародовал в другом, более тематическом, сообществе. > > > P.P.S. Честно скажу, что описание кодировок текста в спецификации PDF "не вкурил" :) > > Вообще-то у Adobe спецификация PDF - отдельно, а кодировки - отдельно. И сам PDF не накладывает на кодировки никаких ограничений. Впрочем, у затеи по имени "редактирование PDF" и без кодировок граблей хватает.
__, _, __, _,_ _, _
|_ / \ |_) | | |\/|
| \ / | \ | | | |
~ ~ ~ ~ `~' ~ ~
Programmed by
Dmitri Maximovich
,
Dmitry I. Platonoff
,
Eugen Kuleshov
.
25.09.99 (c) 1999,
RU/2
. All rights reserved.
Rewritten by
Dmitry Ban
. All rights ignored.