RU/2: Форум. Общение пользователей и разработчиков OS/2 (eCS). : PDF конвертер


Список сообщений | Написать новое | Ответить на сообщение | Домой Поиск:
Предыдущее сообщение | Следующее сообщение
From : Юрий Пронякин
To : Василий А. Сидоров
Subj : PDF конвертер

> Что-то с чем-то не стыкуется.

на самом деле всё прекрасно стыкуется.

> Из массы документов прекрасно извлекается текст.

Согласен: из массы - извлекается. Но попадаются и такие, где кодировка самодельная.
Тут ведь какие варианты возможны:
1. Урезание шрифтов при создании PDF-а могло быть отключено вообще (редкий случай)
2. Урезание включено, но процент использованных в документе символов шрифта превышает тот порог, после которого урезание автоматически отключается.
3. Урезание производилось, но программа, создававшая PDF, производит эту операцию, не меняя кодировку символов.
Во всех этих случаях проблем с извлечением текста, редактированием его в PDF-е, поиском и т.п. не будет. Но если программа урезала шрифты, изменяя попутно их кодировку - проблемы будут. И документы такие попадаются.

> P.S. Нет, я не спорю, что есть документы без текстового слоя, есть, наверное, и документы из которых извлекается мусор, а не текст, но глобальность проблемы кажется мне преувеличенной.

Зависит от личного опыта. мне лично преувеличенной кажется необходимость в извлечении текста :-) А по теме зависимости корёжения кодировок Дистиллером от его настроек и параметров печати я несколько лет назад целое исследование проводил, но его результаты обнародовал в другом, более тематическом, сообществе.

> P.P.S. Честно скажу, что описание кодировок текста в спецификации PDF "не вкурил" :)

Вообще-то у Adobe спецификация PDF - отдельно, а кодировки - отдельно. И сам PDF не накладывает на кодировки никаких ограничений. Впрочем, у затеи по имени "редактирование PDF" и без кодировок граблей хватает.

Sat 16 May 2009 05:23 Mozilla/5.0 (OS/2; U; Warp 4.5; ru-RU; rv:1.8.1.19) Gecko/20




Programmed by Dmitri Maximovich, Dmitry I. Platonoff, Eugen Kuleshov.
25.09.99 (c) 1999, RU/2. All rights reserved.
Rewritten by Dmitry Ban. All rights ignored.