Как изменить кодировку pdf документа

Добрый день! Работаю с пдф-файлами довольно долго - делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается "кракозябра". Говорить о том, что в данном случае не работает поиск по файлу, не приходится. На...

  • #1

Добрый день!
Работаю с пдф-файлами довольно долго — делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается «кракозябра». Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу

целых 3 этапа

:

  1. Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
  2. Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
  3. Запускаю распознавание текста с технологией ClearScan

После этих манипуляций из книги получается что-то приличное, хотя как работает распознавание текста, думаю, не надо объяснять. Мягко говоря, не всегда распознается так, как должно. Если языков в файле несколько, то вообще беда. Плюсом ко всему вышеописанному стоит понимать, что книги содержат иногда по 500, а то и больше, страниц. И на каждый этап уходит довольно немало времени.
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #2

Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите «обязательный экземпляр» — огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

  • #3

Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите «обязательный экземпляр» — огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

Видимо, действительно не умею пользоваться поиском, т.к. причем тут «обязательный экземпляр» не понимаю… Искал по слову «кодировка».

AM Labs

AM Labs

Enfocus | Tilia Labs | ColorLogic | Callas


  • #5

  • Безымянный.png

    Безымянный.png

    262.8 КБ

    · Просм.: 1 086

AM Labs

AM Labs

Enfocus | Tilia Labs | ColorLogic | Callas


  • #6

Тогда вам стоит уточнить что такое «делаю электронные издания». Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #7

Видимо, действительно не умею пользоваться поиском, т.к. причем тут «обязательный экземпляр» не понимаю… Искал по слову «кодировка».

Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

  • #8

Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

Сейчас понял, что поиск, оказывается, корректно работает только если целиком набирать слово. Я набирал «кодировк», предполагая, что при этом искомое слово найдется во всех падежах. Спасибо за замечание!

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #9

Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'

  • #10

Тогда вам стоит уточнить что такое «делаю электронные издания». Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

Да, сорри, не уточнил — я занимаюсь подготовкой эл. изданий в соответствии с ГОСТ 7.0.83-2013. Электронные издания. Основные виды и выходные сведения.

  • #11

Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'

Как Вы могли заметить, я первый день на этом форуме и не имею представления о его масштабах и специфике обсуждаемых тем. Так что нет, не смутило 'opa!)'

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #12

Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой ;)

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #14

Да. В начале приложен краткий дайджест топика в виде отдельного FAQ

german


  • #15

Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

  • 2020-04-23_22-41-27.png

    2020-04-23_22-41-27.png

    20.5 КБ

    · Просм.: 487

George

George

I wish I was a monster you think I am


  • #16

и хороших, стабильных решений по этой теме пока нет.

Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

  • #17

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

  • #18

Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

Ни для того, ни для другого)
Термин «Электронная книга» сейчас имеет очень много смыслов. Соответственно, и в издательской среде к понятию «электронного издания» относятся по-разному. Прошу прощения за лирику… Дальше речь только про формат PDF.

  • Некоторые издательства продают прямо оригинал-макеты (без правок и даже минимальной обработки).
  • Есть такие, кто продает так называемые «копии печатных изданий» — это тот же оригинал-макет, только уже с небольшой адаптацией под читателя, иногда даже с навигационным меню.
  • Третий вид составляют издательства, которые серьезно относятся к подготовке эл. изданий, т.е. делают из оригинал-макетов полноценные эл. издания по вышеупомянутому ГОСТу, соответственно, в книгах есть полноценные выходные сведения, работают функции поиска и копирования текста, присутствует навигационное меню, оптимизированы растровые элементы и т.д.

Я работаю с третьим типом издательств, таким образом моя задача максимально окультурить книгу. Многие операции автоматизированы «до нЕльзя» при помощи плагинов и функционала самого Акробата. Но вот проблему с кодировкой никак не удается не то что автоматизировать, а даже хоть чуть-чуть упростить — минимум 3 этапа (описывал выше).
Повторю, что речь пока исключительно про PDF — ни PDF/A, ни EPUB я не затрагиваю, т.к. знаю про них гораздо меньше.

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #19

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).

Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

german


  • #20

Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

Это в новой версии Acrobat Pro DC.

А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

Это в инструментах ToolsPrint ProductionPreflight

  • acrtextoutline.PNG

    acrtextoutline.PNG

    52.1 КБ

    · Просм.: 386

  1. Руководство пользователя Acrobat
  2. Введение в Acrobat
    1. Доступ к Acrobat с настольных компьютеров, мобильных устройств и интернета
    2. Новые возможности Acrobat
    3. Комбинации клавиш
    4. Системные требования
  3. Рабочее пространство
    1. Основные сведения о рабочем пространстве
    2. Открытие и просмотр файлов PDF
      1. Открытие документов PDF
      2. Навигация по страницам документа PDF
      3. Просмотр установок PDF
      4. Настройка режимов просмотра PDF
      5. Включение предварительного просмотра эскизов файлов PDF
      6. Отображать PDF в браузере
    3. Работа с учетными записями облачного хранилища в Интернете
      1. Доступ к файлам из Box
      2. Доступ к файлам из Dropbox
      3. Доступ к файлам из OneDrive
      4. Доступ к файлам из SharePoint
      5. Доступ к файлам из Google Диска
    4. Acrobat и macOS
    5. Уведомления Acrobat
    6. Сетки, направляющие и измерения в PDF
    7. Использование азиатского текста, кириллицы и текста слева направо в документах PDF
  4. Создание документов PDF
    1. Обзор процедуры создания документов PDF
    2. Создание файлов PDF в Acrobat
    3. Создание документов PDF с помощью PDFMaker
    4. Использование принтера Adobe PDF
    5. Преобразование веб-страниц в PDF
    6. Создание файлов PDF с помощью Acrobat Distiller
    7. Настройки преобразования Adobe PDF
    8. Шрифты PDF
  5. Редактирование документов PDF
    1. Редактирование текста в документах PDF
    2. Редактирование изображений и объектов в документе PDF
    3. Поворот, перемещение, удаление и изменение нумерации страниц PDF
    4. Редактирование отсканированных документов PDF
    5. Улучшение фотографий документов, снятых на камеру мобильного устройства
    6. Оптимизация документов PDF
    7. Свойства документов PDF и метаданные
    8. Ссылки и вложенные файлы в PDF
    9. Слои документов PDF
    10. Миниатюры страниц и закладки в документах PDF
    11. Мастер операций (Acrobat Pro)
    12. Файлы PDF, преобразованные в веб-страницы
    13. Настройка документов PDF для использования в презентации
    14. Статьи PDF
    15. Геопространственные файлы PDF
    16. Применение операций и сценариев к файлам PDF
    17. Изменение шрифта по умолчанию для добавления текста
    18. Удаление страниц из документов PDF
  6. Сканирование и распознавание текста
    1. Сканирование документов в формат PDF
    2. Улучшение фотографий документов
    3. Устранение неполадок сканера при использовании Acrobat для сканирования
  7. Формы
    1. Основные положения для работы с формами PDF
    2. Создание форм с нуля в Acrobat
    3. Создание и рассылка форм PDF
    4. Заполнение форм PDF
    5. Свойства полей форм PDF
    6. Заполнение и подписание форм PDF
    7. Настройка кнопок для выполнения действий в формах PDF
    8. Публикация интерактивных веб-форм PDF
    9. Основные положения для работы с полями форм PDF
    10. Поля форм PDF для штрих-кода
    11. Сбор данных формы PDF и управление ими
    12. Инспектор форм
    13. Помощь с формами PDF
    14. Отправка форм PDF получателям с использованием эл. почты или внутреннего сервера
  8. Объединение файлов
    1. Объединение или слияние файлов в один файл PDF
    2. Поворот, перемещение, удаление и перенумерация страниц PDF
    3. Добавление верхних и нижних колонтитулов, а также нумерации Бейтса в документы PDF
    4. Обрезка страниц PDF
    5. Добавление водяных знаков в документы PDF
    6. Добавление фона в документы PDF
    7. Работа с файлами, входящими в портфолио PDF
    8. Публикация портфолио PDF и предоставление совместного доступа
    9. Обзор портфолио PDF
    10. Создание и настройка портфолио PDF
  9. Общий доступ, редактирование и комментирование
    1. Предоставление общего доступа к документам PDF и их отслеживание онлайн
    2. Пометка текста при редактировании
    3. Подготовка к редактированию документа PDF
    4. Запуск процесса редактирования файлов PDF
    5. Размещение совместных рецензий на сайтах SharePoint или Office 365
    6. Участие в редактировании документа PDF
    7. Добавление комментариев в документы PDF
    8. Добавление штампа в файл PDF
    9. Процессы утверждения
    10. Управление комментариями | просмотр, добавление ответа, печать
    11. Импорт и экспорт комментариев
    12. Отслеживание редактирования PDF и управление им
  10. Сохранение и экспорт документов PDF
    1. Сохранение PDF
    2. Преобразование файлов PDF в формат Word
    3. Преобразование документа PDF в файл JPG
    4. Преобразование и экспорт документов PDF в файлы других форматов
    5. Параметры форматирования файлов для экспорта в PDF
    6. Повторное использование содержимого PDF
  11. Защита
    1. Повышенный уровень защиты документов PDF
    2. Защита документов PDF с помощью паролей
    3. Управление цифровыми удостоверениями
    4. Защита документов PDF с помощью сертификатов
    5. Открытие защищенных документов PDF
    6. Удаление конфиденциальных данных из документов PDF
    7. Установка политик безопасности файлов PDF
    8. Выбор метода защиты для документов PDF
    9. Предупреждения безопасности при открытии документов PDF
    10. Защита файлов PDF с Adobe Experience Manager
    11. Функция защищенного просмотра PDF-документов
    12. Обзор функций защиты в программе Acrobat и файлах PDF
    13. Язык JavaScript в файлах PDF, представляющий угрозу безопасности
    14. Вложения как угроза безопасности
    15. Разрешить или заблокировать ссылки в PDF-файлах
  12. Электронные подписи
    1. Подписание документов PDF
    2. Съемка подписи на мобильное устройство и использование ее в любых приложениях
    3. Отправка документов на электронные подписи
    4. О подписях сертификатов
    5. Подписи на основе сертификата
    6. Подтверждение цифровых подписей
    7. Доверенный список, утвержденный Adobe
    8. Управление доверенными лицами
  13. Печать
    1. Основные задачи печати файлов PDF
    2. Печать брошюр и портфолио в формате PDF
    3. Дополнительные настройки печати PDF
    4. Печать в PDF
    5. Печать цветных документов PDF (Acrobat Pro)
    6. Печать файлов PDF с помощью заказных размеров
  14. Расширенный доступ, теги и перекомпоновка
    1. Создание и проверка средств расширенного доступа к документам PDF
    2. Возможности расширенного доступа в файлах PDF
    3. Инструмент «Порядок чтения» в PDF
    4. Чтение документов PDF при помощи возможностей расширенного доступа и перекомпоновки
    5. Редактирование структуры документа на панелях «Содержимое» и «Теги»
    6. Создание документов PDF с расширенным доступом
  15. Поиск и индексация
    1. Индексирование файлов PDF
    2. Поиск в документах PDF
  16. 3D-модели и мультимедиа
    1. Добавление аудио, видео и интерактивных объектов в файлы PDF
    2. Добавление 3D-моделей в файлы PDF (Acrobat Pro)
    3. Отображение 3D-моделей в файлах PDF
    4. Взаимодействие с 3D-моделями
    5. Измерение 3D-объектов в файлах PDF
    6. Настройка 3D-видов в файлах PDF
    7. Включение 3D-содержимого в документе PDF
    8. Добавление мультимедийного контента в документы PDF
    9. Добавление комментариев для 3D-макетов в файлах PDF
    10. Воспроизведение видео-, аудио- и мультимедийных форматов в файлах PDF
    11. Добавление комментариев в видеоролики
  17. Инструменты для допечатной подготовки (Acrobat Pro)
    1. Обзор инструментов для допечатной подготовки
    2. Типографские метки и тонкие линии
    3. Просмотр цветоделения
    4. Обработка прозрачности
    5. Преобразование цветов и управление красками
    6. Цветовой треппинг
  18. Предпечатная проверка (Acrobat Pro)
    1. Файлы, совместимые с PDF/X-, PDF/A- и PDF/E
    2. Профили предпечатной проверки
    3. Расширенная предпечатная проверка
    4. Отчеты предпечатной проверки
    5. Просмотр результатов предпечатной проверки, объектов и ресурсов
    6. Методы вывода в PDF
    7. Исправление проблемных областей с помощью инструмента «Предпечатная проверка»
    8. Автоматизация процедуры анализа документов с помощью дроплетов или операций предпечатной проверки
    9. Анализ документов с помощью инструмента «Предпечатная проверка»
    10. Дополнительная проверка с помощью инструмента «Предпечатная проверка»
    11. Библиотеки предпечатной проверки
    12. Предпечатные переменные
  19. Управление цветом
    1. Обеспечение согласованности цветов
    2. Настройки цветов
    3. Управление цветом документов
    4. Работа с цветовыми профилями
    5. Основы управления цветом

Преобразование файлов PDF в формат Word

Быстро преобразовывайте файлы PDF в Word онлайн

Преобразовать PDF в Excel

Быстро преобразовывайте файлы PDF в Excel онлайн

Параметры форматирования файлов для экспорта в PDF в Acrobat

При экспорте PDF в файлы других форматов с помощью инструмента Экспорт PDF в Acrobat для каждого из форматов существуют собственные уникальные параметры преобразования. Для просмотра форматов, в которые можно экспортировать файлы PDF в Acrobat, выберите Инструменты > Экспорт PDF.

Экспорт файлов PDF в другие форматы

Параметры Adobe PDF (Acrobat Pro)

С помощью диалогового окна Оптимизация PDF файлы PDF можно заново сохранить как оптимизированные. В окне Оптимизация PDF можно менять параметры совместимости файлов PDF так, чтобы просматривать их в старых версиях программ Acrobat или Reader. Если изменить настройку совместимости, более новые функции будут недоступны в файлах PDF. Описание настроек совместимости представлено в разделе Уровни совместимости PDF.

Если каждый раз при преобразовании документов PDF в конкретный формат нужно применять одни и те же настройки, укажите их в диалоговом окне «Установки». На панели Преобразование из PDF выберите файловый формат из списка и нажмите Изменить настройки. (установки по умолчанию можно в любое время восстановить, нажав кнопку «Восстановить значения по умолчанию»).

Настройки преобразования изображений

Параметры JPEG и JPEG2000

Если в документе PDF содержится набор изображений, их можно экспортировать по отдельности как файлы JPEG, PNG или TIFF, выбрав меню Инструменты > Экспорт PDF > Изображение > Экспорт всех изображений.

Обратите внимание, что доступность параметров зависит от преобразования документа в JPEG или JPEG2000.

Настройки сохранения JPEG

Параметры файла

  • Сжатие в градациях серого/цветных изображений. Задает сжатие, уравновешивающее размер файла и качество изображения. Чем меньше файл, тем хуже качество изображения.
  • Мозаика. Разделяет сжимаемое изображение на сегменты заданного размера. (если высота или ширина изображения не кратна размеру сегмента, по краям используются частичные сегменты). Данные изображения для каждого сегмента сжимаются отдельно, восстановление их также можно выполнять по отдельности. Рекомендуется использовать значение по умолчанию, равное 256. Этот параметр доступен только для формата JPEG2000.
  • Формат. Определяет способ отображения файла. Доступно только для формата JPEG. Доступны следующие параметры:
    • Базовый (стандартный). Отображает изображение после его полной загрузки. Данный формат JPEG распознается почти всеми веб-браузерами.
    • Базовый (оптимизированный). Оптимизирует качество цветного изображения и создает файлы меньших размеров. Не поддерживается некоторыми веб-браузерами.
    • Прогрессивный (3 прохода – 5 проходов). В начале загружает изображение с низким разрешением, затем по мере загрузки качество изображения улучшается.

Управление цветом


RGB/CMYK/В градациях серого

Задает тип управления цветом, применяемый к выходному файлу, и встраивает ICC-профиль.

Если команда Экспорт в или «Экспорт всех изображений» используется для файла PDF, содержащего изображения JPEG и JPEG 2000, и содержимое экспортируется в формате JPEG или JPEG 2000, полученное изображение при открытии в приложении Acrobat может выглядеть иначе. Это может произойти в том случае, если в изображения встроены цветовые профили на уровне страницы, а не внутри данных изображения. В таком случае Acrobat не может использовать цветовой профиль на уровне страницы для сохраняемого изображения.

Преобразование


Цветовое пространство/Разрешение

Задает цветовое пространство и разрешение выходного файла. Acrobat может определить эти настройки автоматически. Для преобразования цветных изображений в файл в градациях серого выберите «В градациях серого».

Более высокое разрешение, например 2400 ppi, подходит только для страниц маленького размера (до 6,826 дюйма или 173,380 мм).

Параметры PNG

Формат PNG используется для изображений в Интернете.

Настройки сохранения PNG

Параметры файла


Чересстрочная

Определение чересстрочного изображения. Изображение отображается в веб-браузере только после полной загрузки. Adam7 создает изображение, которое отображается в веб-браузере с низким разрешением, пока загружается полный файл изображения. Adam7 позволяет сократить время загрузки и информирует средства просмотра о процессе загрузки, но при этом увеличивается размер файла.

Фильтр. Позволяет выбрать алгоритм фильтрации.

  • Отсутствует. Сжимает изображения без фильтра. Рекомендуется для индексированных и битовых изображений.
  • Под. Оптимизирует сжатие изображений с четными горизонтальными узорами или переходами.
  • Над. Оптимизирует сжатие изображений с четными вертикальными узорами.
  • Усредненный. Оптимизирует сжатие шумов низкого уровня с помощью усреднения цветовых значений соседних пикселей.
  • Контур. Оптимизирует сжатие шумов низкого уровня с помощью перераспределения соседних цветовых значений.
  • Адаптивный. Применяет алгоритм фильтрации, наиболее подходящий для изображения — «Под», «Над», «Усредненный» или «Контур». Выберите «Адаптивный», если неизвестно, какой фильтр использовать.

Управление цветом


RGB/В градациях серого

Задание типа управления цветом для выходного файла и встраивания ICC-профиля.

Преобразование


Цветовое пространство/Разрешение

Задает цветовое пространство и разрешение выходного файла. Acrobat может определить эти настройки автоматически. Для преобразования цветных изображений в файл в градациях серого выберите «В градациях серого».

Более высокое разрешение, например 2400 ppi, подходит только для страниц маленького размера (до 6,826 дюйма или 173,380 мм).

Параметры TIFF

TIFF представляет собой гибкий формат растрового изображения, поддерживаемый практически всеми приложениями рисования, обработки изображений и верстки. Разрешение определяется автоматически.

Параметры файла


Монохромное

Задание формата сжатия. Значение по умолчанию CCITTG4 обычно обеспечивает наименьший размер файла. Сжатие ZIP также позволяет получить файлы малых размеров.

В некоторых приложениях невозможно открыть файлы TIFF, сохраненные со сжатием JPEG или ZIP. В таких случаях рекомендуется использовать сжатие LZW.  

Управление цветом


RGB/CMYK/В градациях серого/Другое

Задание типа управления цветом выводного файла.

Преобразование


Цветовое пространство/Разрешение

Задает цветовое пространство и разрешение выходного файла. Acrobat может определить эти настройки автоматически. Для преобразования цветных изображений в файл в градациях серого выберите «В градациях серого».

Более высокое разрешение, например 2400 ppi, подходит только для страниц маленького размера (до 6,826 дюйма или 173,380 мм).

Параметры файлов Microsoft Word и RTF

Файл PDF можно экспортировать в формат Word (DOCX или DOC) или расширенный текстовый формат (RTF). В Acrobat выберите Инструменты > Экспорт PDF и выберите Microsoft Word или Word 97-2003. При нажатии на значок  (настройки) доступны следующие параметры:

Настройки сохранения DOCX

Настройки макета

  • Сохранить обтекание текстом. Указывает на то, что обтекание текстом должно быть сохранено.
  • Сохранить макет страницы. Указывает на то, что макет страницы должен быть сохранен.

Настройки комментариев

  • Включить комментарии. Экспортирует комментарии в выходной файл.

Параметры изображений

  • Включить изображения. Экспортирует изображения в выходной файл.

Настройки распознавания текста

  • Распознать текст при необходимости. Распознает текст, если файл PDF содержит изображения с текстом.
  • Выбрать язык. Указывает язык для оптического распознавания символов.

Параметры веб-страницы HTML

При нажатии на Дополнительные настройки доступны следующие параметры:

Настройки сохранения HTML

Параметры файлов и панели навигации


Одна страница HTML

Указывает, что при экспорте в формат HTML создается один файл HTML. Чтобы добавить панель навигации, включите следующие параметры:

  • Добавить кадр навигации на базе заголовков

  • Добавить кадр навигации на базе закладок


Несколько страниц HTML

Указывает, что при экспорте в формат HTML создается несколько файлов HTML. Чтобы разделить документ на несколько файлов HTML, выберите один из критериев.

  • Разделить по заголовкам документа

  • Разделить по закладкам документа

Параметры содержимого


Включить изображения

Указывает, экспортировать ли изображения при экспорте файла PDF в HTML.


Найти и удалить верхний и нижний колонтитулы

Указывает, необходимо ли удалить содержимое верхнего и нижнего колонтитулов в документе PDF из файлов HTML.

Настройки распознавания текста


Распознать текст при необходимости

Распознает текст, если файл PDF содержит изображения с текстом.


Выбрать язык

Указывает язык для оптического распознавания символов.

Параметры электронной таблицы

В Acrobat выберите Инструменты > Экспорт PDF и выберите рабочую книгу Microsoft Excel или таблицу XML 2003. При нажатии на значок  (настройки) доступны следующие параметры:

Настройки сохранения XLSX


Настройки книги Excel

Указывает, будет ли создан рабочий лист для каждой таблицы, страницы или всего документа.


Настройки формата чисел

Указывает десятичный разделитель и разделитель разрядов для числовых данных. Выберите один из следующих вариантов.

  • Определить десятичный разделитель и разделитель разрядов исходя из региональных настроек

  • Рассматривать следующие символы как десятичный разделитель и разделитель разрядов. Введите или выберите разделители в соответствующих полях.

Настройки распознавания текста


Распознать текст при необходимости

Распознает текст, если файл PDF содержит изображения с текстом.


Выбрать язык

Указывает язык для оптического распознавания символов.

Параметры PostScript и Encapsulated PostScript (EPS)

Возможен экспорт файлов PDF в PostScript® для использования в приложениях печати и допечатной подготовки. Файл PostScript включает все комментарии DSC (Document Structuring Conventions) и другую дополнительную информацию, сохраняемую программой Adobe Acrobat Distiller®. Из любого файла PDF можно также создать файл EPS, который можно будет использовать вместо файла PDF или открывать в других приложениях. Набор доступных параметров зависит от того, преобразуется ли документ в PostScript или EPS.

При создании файлов EPS для цветоделения в программе Acrobat Pro все изображения должны находиться в цветовом пространстве CMYK.


Файл описания принтера

Файл описания принтера (PPD) предоставляет сведения, необходимые для правильного форматирования файла PostScript при выводе на определенное выводное устройство. Аппаратно-независимый — создает только совмещенные (не цветоделенные) файлы PostScript или EPS. Acrobat по умолчанию — предоставляет исходную точку и ссылку для создания всех типов файлов PostScript и восстанавливает для преобразования все настройки по умолчанию. Формат Adobe PDF 7.0 совместим с большинством устройств. Этот параметр доступен только для формата PostScript.


ASCII или двоичный

Определяет выходной формат данных изображений. Двоичный формат обеспечивает меньший размер файлов, но его можно использовать не во всех рабочих процессах.


PostScript

Определяет уровень совместимости с языком PostScript. Следует использовать Level 3 только в том случае, если устройство вывода обеспечивает его поддержку. Language Level 2 подходит для файлов EPS, предназначенных для размещения в других документах, цветоделение которых выполняется в составе этого документа. Используйте Level 2 для файлов EPS, импортируемых в приложения Microsoft.


Включение шрифтов

Определяет шрифты, которые будут включены в PostScript. Встроенные шрифты берутся из PDF, все прочие — из системы используемого компьютера.


Включить комментарии

Сохраняет оформление комментариев в конечном файле PostScript.


Преобразовать шрифты TrueType в Type 1

Преобразует шрифты TrueType в Type 1 в конечном PostScript-файле.


Включить просмотр

Определяет создание файла просмотра TIFF для конечного файла EPS. Этот параметр недоступен в случае сохранения файла в формате PostScript.


Диапазон страниц

Задает страницы для экспорта. При экспорте страниц в EPS каждая страница в диапазоне сохраняется в отдельном файле EPS.

Текст и параметры XML

Документы PDF можно экспортировать в текстовые файлы и формат XML. В Acrobat выберите Инструменты > Экспорт PDF > Другие форматы и выберите Текст (доступный) или Текст (простой) или XML 1.0.

Экспорт в текстовые файлы и формат XML

 При нажатии на значок XML 1.0 (настройки) доступны следующие параметры:

Настройки сохранения XML

Параметры выходного файла


Кодировка

Двоичные значения на основе международных стандартов, используемых для представления текстовых символов. UTF-8 — кодировка Юникода, в которой на каждый символ приходится один или несколько байтов по 8 бит, а в кодировке UTF-16 используются байты по 16 бит. ISO-Latin-1 — 8-битовое представление символов, являющееся расширением набора ASCII. UCS-4 — универсальный набор символов с кодировкой в четырех октетах. HTML/ASCII — 7-битовое представление символов, разработанное Американским национальным институтом стандартизации.

В таблице преобразования по умолчанию используется кодировка по умолчанию, определенная в таблицах преобразования, расположенных в папке Plug-ins/SaveAsXML/MappingTables. Такие таблицы соответствия определяют различные характеристики вывода данных, включая следующие стандартные кодировки: UTF-8 (сохранение в виде XML или HTML 4.0.1) и HTML/ASCII (сохранение в виде HTML 3.2).


Создать закладки

Создает закладки для перехода по содержимому документов HTML или XML. Закладки размещаются в начале создаваемого документа HTML или XML.


Создать теги в файлах, в которых они отсутствуют

Создает теги для файлов, в которых они отсутствуют (например, для файлов PDF, созданных с помощью Acrobat 4.0 или более ранних версий). Если этот параметр не установлен, неразмеченные файлы не преобразуются.

Теги создаются только в процессе преобразования, затем они удаляются. С помощью этого метода нельзя создавать файлы PDF с тегами из устаревших файлов

Параметры файлов изображений


Создавать изображения

Контролирует преобразование изображений. Ссылки на преобразованные файлы изображений находятся в документах XML и HTML.


Использовать вложенную папку

Задает папку, в которую сохраняются созданные изображения. По умолчанию используется папка Images.


Использовать префикс

Задает префикс, добавляемый к именам файлов изображений (на тот случай, если будет создано нескольких версий одного файла изображения). Изображениям присваиваются имена в формате имяфайла_img_#.


Выходной формат

Задает выходной формат изображений. Формат по умолчанию — JPG.


Даунсамплинг

Понижает разрешение графических файлов до заданного разрешения. Если эта опция не используется, файлы изображений сохраняются с разрешением исходных файлов. Увеличение разрешения файлов не используется никогда.

Ответ на:

комментарий
от anonymous_sapiens 15.05.11 15:11:45 MSK

Во-первых, файлов несколько.
Во-вторых, изменённые файлы хотелось бы сохранить в том же формате.

Breton

(15.05.11 15:14:44 MSK)

  • Ссылка

Ответ на:

комментарий
от anonymous_sama 15.05.11 15:09:57 MSK

В самом PDF все просматривается нормально. Не работает поиск. Из-за кодировок.
А править пдфки копипастом — сильно много времени уйдет.

Breton

(15.05.11 15:15:48 MSK)

  • Ссылка

Ответ на:

комментарий
от zibert 15.05.11 15:16:58 MSK

Открой файл в окуляре, дай поиск по слову «дифференциал». После того, как оно ничего не найдет, перейди на 31 страницу, там это слово есть.

Breton

(15.05.11 15:19:21 MSK)

  • Показать ответ
  • Ссылка

Ответ на:

комментарий
от Breton 15.05.11 15:19:21 MSK

Ответ на:

комментарий
от zibert 15.05.11 15:20:34 MSK

Ответ на:

комментарий
от Breton 15.05.11 15:21:39 MSK

Ответ на:

комментарий
от zibert 15.05.11 15:22:18 MSK

Стандартная проблема. Если бы был исходник, то, насколько я помню, поиск в PDF с кириллицей появлялся при подключении пакета cmap.sty.

Для исправления PDF самого по себе нужно разбираться в этом формате. Для специалиста это, наверное, не сложно.

kalenkov

(15.05.11 15:58:20 MSK)

  • Показать ответ
  • Ссылка

Ответ на:

комментарий
от kalenkov 15.05.11 15:58:20 MSK

> Если бы был исходник, то, насколько я помню, поиск в PDF с кириллицей появлялся при подключении пакета cmap.sty.

+ обязателен pdflatex может и xetex, но не latex

P.S. По топику: править исходники.

Evgueni ★★★★★

(16.05.11 20:26:17 MSK)

  • Ссылка

Ответ на:

комментарий
от Eddy_Em 16.05.11 20:33:00 MSK

Кстати, всё-таки выпросил исходники. Но пока не поправил, решенным считать не буду.

Breton

(16.05.11 22:04:00 MSK)

  • Ссылка

Ответ на:

комментарий
от Breton 16.05.11 22:03:14 MSK

Тогда только перекомпилировать.

Eddy_Em

☆☆☆☆☆

(16.05.11 22:17:26 MSK)

  • Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

Понравилась статья? Поделить с друзьями:
  • Как изменить код узла синхронизации данных префикс базы корреспондента
  • Как изменить код пароль на айфоне на 4 цифры
  • Как изменить код на кодовом замке apecs
  • Как изменить код на глюкометре сателлит экспресс
  • Как изменить код nintendo network