-
#1
Добрый день!
Работаю с пдф-файлами довольно долго — делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается «кракозябра». Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу
целых 3 этапа
:
- Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
- Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
- Запускаю распознавание текста с технологией ClearScan
После этих манипуляций из книги получается что-то приличное, хотя как работает распознавание текста, думаю, не надо объяснять. Мягко говоря, не всегда распознается так, как должно. Если языков в файле несколько, то вообще беда. Плюсом ко всему вышеописанному стоит понимать, что книги содержат иногда по 500, а то и больше, страниц. И на каждый этап уходит довольно немало времени.
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!
_MBK_
Пикирующий бомбардировщик
-
#2
Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите «обязательный экземпляр» — огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет
-
#3
Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите «обязательный экземпляр» — огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет
Видимо, действительно не умею пользоваться поиском, т.к. причем тут «обязательный экземпляр» не понимаю… Искал по слову «кодировка».
AM Labs
Enfocus | Tilia Labs | ColorLogic | Callas
-
#5
-
Безымянный.png
262.8 КБ
· Просм.: 1 086
AM Labs
Enfocus | Tilia Labs | ColorLogic | Callas
-
#6
Тогда вам стоит уточнить что такое «делаю электронные издания». Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.
_MBK_
Пикирующий бомбардировщик
-
#7
Видимо, действительно не умею пользоваться поиском, т.к. причем тут «обязательный экземпляр» не понимаю… Искал по слову «кодировка».
Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда
-
#8
Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда
Сейчас понял, что поиск, оказывается, корректно работает только если целиком набирать слово. Я набирал «кодировк», предполагая, что при этом искомое слово найдется во всех падежах. Спасибо за замечание!
_MBK_
Пикирующий бомбардировщик
-
#9
Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего
-
#10
Тогда вам стоит уточнить что такое «делаю электронные издания». Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.
Да, сорри, не уточнил — я занимаюсь подготовкой эл. изданий в соответствии с ГОСТ 7.0.83-2013. Электронные издания. Основные виды и выходные сведения.
-
#11
Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего
![]()
Как Вы могли заметить, я первый день на этом форуме и не имею представления о его масштабах и специфике обсуждаемых тем. Так что нет, не смутило
_MBK_
Пикирующий бомбардировщик
-
#12
Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой
_MBK_
Пикирующий бомбардировщик
-
#14
Да. В начале приложен краткий дайджест топика в виде отдельного FAQ
-
#15
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.
-
2020-04-23_22-41-27.png
20.5 КБ
· Просм.: 487
George
I wish I was a monster you think I am
-
#16
и хороших, стабильных решений по этой теме пока нет.
Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?
-
#17
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.
А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)
-
#18
Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?
Ни для того, ни для другого)
Термин «Электронная книга» сейчас имеет очень много смыслов. Соответственно, и в издательской среде к понятию «электронного издания» относятся по-разному. Прошу прощения за лирику… Дальше речь только про формат PDF.
- Некоторые издательства продают прямо оригинал-макеты (без правок и даже минимальной обработки).
- Есть такие, кто продает так называемые «копии печатных изданий» — это тот же оригинал-макет, только уже с небольшой адаптацией под читателя, иногда даже с навигационным меню.
- Третий вид составляют издательства, которые серьезно относятся к подготовке эл. изданий, т.е. делают из оригинал-макетов полноценные эл. издания по вышеупомянутому ГОСТу, соответственно, в книгах есть полноценные выходные сведения, работают функции поиска и копирования текста, присутствует навигационное меню, оптимизированы растровые элементы и т.д.
Я работаю с третьим типом издательств, таким образом моя задача максимально окультурить книгу. Многие операции автоматизированы «до нЕльзя» при помощи плагинов и функционала самого Акробата. Но вот проблему с кодировкой никак не удается не то что автоматизировать, а даже хоть чуть-чуть упростить — минимум 3 этапа (описывал выше).
Повторю, что речь пока исключительно про PDF — ни PDF/A, ни EPUB я не затрагиваю, т.к. знаю про них гораздо меньше.
_MBK_
Пикирующий бомбардировщик
-
#19
Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?
-
#20
Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?
Это в новой версии Acrobat Pro DC.
А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)
Это в инструментах ToolsPrint ProductionPreflight
-
acrtextoutline.PNG
52.1 КБ
· Просм.: 386
Кракозябры (иероглифы) при копировании с PDF документа
Я не уверен, что следующие советы помогут для всех решить проблему, но частичное решение ее все же возможно.
Давайте сразу отбросим отсканированые и нераспознанные PDF документы, из которых просто невозможно скопировать текст. Это равносильно попытке копирования текста из обычной фотографии, сделанной на ваш смартфон. В таком случае текст нужно распознать специальной программой, вроде ABBYY FineReader.
Наша книга (тестовая) полностью поддерживает копирование текста и изображений. Но при попытке перенести такой текст в Microsoft Office Word, можно видеть такие нечитабельные символы как на скриншоте сверху статьи.
Способ 1 (длинный).
Чтобы узнать какие именно нужно инсталлировать на компьютер шрифты, нужно открыть наш PDF документ поддерживаемой программой (на примере PDF-XChange Viewer ). Далее идем в «Файл» → «Свойства документа» (можно нажать сочетание клавиш Ctrl + D).
Далее копируем и вставляем текст из PDF документа, выделяем его в Microsoft Office Word (или в другом офисном редакторе, который у вас установлен) и выбираем из списка недавно установленный шрифт. Все должно быть нормально. Снизу на скриншоте видно, что я намеренно применил нужный шрифт только на одно предложение, другую часть текста прочитать невозможно.
Способ 2 (быстро и удобно).
Способ 3 (онлайн).
Кто не хочет использовать программу Shtirlitz или она не работает, может использовать следующие онлайн сервисы для перекодирования (отдельные сервисы имеют ограничения по объему текста).
Обратите внимание, что кодирование нашей тестовой книги windows-1252. Для нас нужна кодировка windows-1251. Поэтому переходим на сервис online-decoder.com.
Там можно видеть окно, где написано «Скопируйте сюда текст». Вставляем наш непонятный текст и нажимаем на кнопку «Подбор». Такой способ будет правильно использовать если вам неизвестна система кодирования. Декодер попытается подобрать ее автоматически. Если вы знаете исходное кодирование своей кракозябры, то можете смело нажимать кнопку «Точно», указав перед этим кодирование, напротив текста «Я знаю нужные кодировки».
Второй сервис «artlebedev.ru». Есть два способа для декодирования: «Просто» и «Сложно». Первый вариант работает на автомате. Второй – дает возможность, при необходимости, указать исходное и конечное кодирование.
Третий онлайн сервис для декодирования текста «2cyr.com» имеет отличие от предыдущих в том, что позволяет выбирать язык. Кроме русского, доступен также и украинский язык интерфейса (и надеюсь, что кодирования также, просто не было возможности проверить).
Все три сервиса отлично работали на моей тестовой книге в формате PDF с кракозябрами.
Способ 4 (с помощью макросов для Microsoft Office Word ).
Еще один вариант для программы Microsoft Office Word. Никаких шрифтов ставить не нужно. Создаем макрос со следующим кодом:
Код 1: «Перекодирование 1252 в 1251»
Sub Corr1252_1251() Dim s$, i&, j& s = Selection For i = 1 To Len(s) j = AscW(Mid$(s, i, 1)) If j
Код 2: «Перекодирование 1252 в 1251 (с учетом русской буквы Ё)»
‘ Замена Ё и ё Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = ChrW(168) .Replacement.Text = «Ё» .Forward = True .Wrap = wdFindContinue End With Selection.Find.Execute Replace:=wdReplaceAll Selection.Find.ClearFormatting Selection.Find.Replacement.ClearFormatting With Selection.Find .Text = ChrW(184) .Replacement.Text = «ё» .Forward = True .Wrap = wdFindContinue End With Selection.Find.Execute Replace:=wdReplaceAll End Sub
Выделяем вставленный текст с иероглифами. Тогда запускаем макрос на выполнение и получаем нормальный текст, который можно спокойно редактировать, изменять шрифты и т.д.
Для добавления готового макроса в Word делаем следующее:
Открываем редактор и переходим в «Вид».
Там находим кнопку «Макросы» и нажимаем на нее.
Даем для макроса имя (любое, оно будет автоматически изменено при полном копировании кода выше).
Откроется окно в котором можно заметить название нашего макроса. При желании можете оставить свое имя. Но лучше, чтобы не было ошибок, полностью заменить весь код на готовый (код смотрите сверху).
Как видно, макрос начинается так:
Sub названиемакроса() дальше идет код макроса End Sub
Название макроса может любым, но не цифры и не должно быть пробелов. Может быть так: декодирование_кракозябр_с_ё. Но не может быть так: декодирование кракозябр с ё.
То есть, для нас нужно заменить для нашего созданного пустого макроса весь текст с кодом, который показан выше.
После того как заменили, нужно закрыть окно редактирования макросов (можно нажать на иконку сохранения, хотя изменения сохраняются автоматически). Далее выделяем наш иероглифический текст, открываем макросы, выбираем из списка (если их у вас несколько) нужный и нажимаем на кнопку «Выполнить».
Ваш текст должен стать читабельным.
Источник макросов для Microsoft Office Word: https://wordexpert.ru
Как ни крути, но это не полное решение ситуации. Поиск после данных действий в самом PDF документе работать не будет. Проблема остается. Кто может подсказать ее решение, просьба писать в комментариях.
Источник
Ворд не читает документ кодировка
Ввиду того, что текстовый редактор «Майкрософт Ворд» является самым популярным на рынке, именно форматы документов, которые присущи ему, можно чаще всего встретить в сети. Они могут отличаться лишь версиями (DOCX или DOC). Но даже с этими форматами программа может быть несовместима или же совместима не полностью.
Случаи некорректного отображения текста
Конечно, когда в программе наотрез отказываются открываться, казалось бы, родные форматы, это поправить очень сложно, а то и практически невозможно. Но, бывают случаи, когда они открываются, а их содержимое невозможно прочесть. Речь сейчас идет о тех случаях, когда вместо текста, кстати, с сохраненной структурой, вставлены какие-то закорючки, «перевести» которые невозможно.
Эти случаи чаще всего связаны лишь с одним – с неверной кодировкой текста. Точнее, конечно, будет сказать, что кодировка не неверная, а просто другая. Не воспринимающаяся программой.
Интересно еще то, что общего стандарта для кодировки нет. То есть, она может разниться в зависимости от региона.
Так, создав файл, например, в Азии, скорее всего, открыв его в России, вы не сможете его прочитать.
В этой статье речь пойдет непосредственно о том, как поменять кодировку в Word. Кстати, это пригодится не только лишь для исправления вышеописанных «неисправностей», но и, наоборот, для намеренного неправильного кодирования документа.
Определение
Перед рассказом о том, как поменять кодировку в Word, стоит дать определение этому понятию. Сейчас мы попробуем это сделать простым языком, чтобы даже далекий от этой тематики человек все понял.
Зайдем издалека. В «вордовском» файле содержится не текст, как многими принято считать, а лишь набор чисел. Именно они преобразовываются во всем понятные символы программой. Именно для этих целей применяется кодировка.
Кодировка – схема нумерации, числовое значение в которой соответствует конкретному символу. К слову, кодировка может в себя вмещать не только лишь цифровой набор, но и буквы, и специальные знаки. А ввиду того, что в каждом языке используются разные символы, то и кодировка в разных странах отличается.
Как поменять кодировку в Word. Способ первый
После того, как этому явлению было дано определение, можно переходить непосредственно к тому, как поменять кодировку в Word. Первый способ можно осуществить при открытии файла в программе.
В том случае, когда в открывшемся файле вы наблюдаете набор непонятных символов, это означает, что программа неверно определила кодировку текста и, соответственно, не способна его декодировать. Все, что нужно сделать для корректного отображения каждого символа, – это указать подходящую кодировку для отображения текста.
Говоря о том, как поменять кодировку в Word при открытии файла, вам необходимо сделать следующее:
- Нажать на вкладку «Файл» (в ранних версиях это кнопка «MS Office»).
- Перейти в категорию «Параметры».
- Нажать по пункту «Дополнительно».
- В открывшемся меню пролистать окно до пункта «Общие».
- Поставить о.
- Нажать»ОК».
Итак, полдела сделано. Скоро вы узнаете, как поменять кодировку текста в Word. Теперь, когда вы будете открывать файлы в программе «Ворд», будет появляться окно. В нем вы сможете поменять кодировку открывающегося текста.
Выполните следующие действия:
- Откройте двойным кликом файл, который необходимо перекодировать.
- Кликните по пункту «Кодированный текст», что находится в разделе «Преобразование файла».
- В появившемся окне установите переключатель на пункт «Другая».
- В выпадающем списке, что расположен рядом, определите нужную кодировку.
- Нажмите «ОК».
Если вы выбрали верную кодировку, то после всего проделанного откроется документ с понятным для восприятия языком. В момент, когда вы выбираете кодировку, вы можете посмотреть, как будет выглядеть будущий файл, в окне «Образец». Кстати, если вы думаете, как поменять кодировку в Word на MAC, для этого нужно выбрать из выпадающего списка соответствующий пункт.
Способ второй: во время сохранения документа
Суть второго способа довольно проста: открыть файл с некорректной кодировкой и сохранить его в подходящей. Делается это следующим образом:
- Нажмите «Файл».
- Выберите «Сохранить как».
- В выпадающем списке, что находится в разделе «Тип файла», выберите «Обычный текст».
- Кликните по «Сохранить».
- В окне преобразования файла выберите предпочитаемую кодировку и нажмите «ОК».
Теперь вы знаете два способа, как можно поменять кодировку текста в Word. Надеемся, что эта статья помогла вам в решении вопроса.
MS Word заслужено является самым популярным текстовым редактором. Следовательно, чаще всего можно столкнуться с документами в формате именно этой программы. Все, что может в них отличаться, это лишь версия Ворда и формат файла (DOC или DOCX). Однако, не смотря на общность, с открытием некоторых документов могут возникнуть проблемы.
Источник: https://planshet-info.ru/kompjutery/vord-ne-chitaet-dokument-kodirovka
Что делать, если вместо текста иероглифы (в Word, браузере или текстовом документе)
Наверное, каждый пользователь ПК сталкивался с подобной проблемой: открываешь интернет-страничку или документ Microsoft Word — а вместо текста видишь иероглифы (различные «крякозабры», незнакомые буквы, цифры и т.д. (как на картинке слева…)).
Хорошо, если вам этот документ (с иероглифами) не особо важен, а если нужно обязательно его прочитать?! Довольно часто подобные вопросы и просьбы помочь с открытием подобных текстов задают и мне. В этой небольшой статье я хочу рассмотреть самые популярные причины появления иероглифов (разумеется, и устранить их).
Иероглифы в текстовых файлах (.txt)
Кодировка — это набор символов, необходимый для того, чтобы полностью обеспечить написание текста на определенном алфавите (в том числе цифры и специальные знаки). Более подробно об этом здесь: https://ru.wikipedia.org/wiki/Набор_символов
Чаще всего происходит одна вещь: документ открывается просто не в той кодировке из-за чего происходит путаница, и вместо кода одних символов, будут вызваны другие. На экране появляются различные непонятные символы (см. рис. 1)…
Рис. 1. Блокнот — проблема с кодировкой
Как с этим бороться?
На мой взгляд лучший вариант — это установить продвинутый блокнот, например Notepad++ или Bred 3. Рассмотрим более подробно каждую из них.
Notepad++
Один из лучших блокнотов как для начинающих пользователей, так и для профессионалов. Плюсы: бесплатная программа, поддерживает русский язык, работает очень быстро, подсветка кода, открытие всех распространенных форматов файлов, огромное количество опций позволяют подстроить ее под себя.
В плане кодировок здесь вообще полный порядок: есть отдельный раздел «Кодировки» (см. рис. 2). Просто попробуйте сменить ANSI на UTF-8 (например).
Рис. 2. Смена кодировки в Notepad++
После смены кодировки мой текстовый документ стал нормальным и читаемым — иероглифы пропали (см. рис. 3)!
Рис. 3. Текст стал читаемый… Notepad++
Bred 3
Еще одна замечательная программа, призванная полностью заменить стандартный блокнот в Windows. Она так же «легко» работает со множеством кодировок, легко их меняет, поддерживает огромное число форматов файлов, поддерживает новые ОС Windows (8, 10).
Кстати, Bred 3 очень помогает при работе со «старыми» файлами, сохраненных в MS DOS форматах. Когда другие программы показывают только иероглифы — Bred 3 легко их открывает и позволяет спокойно работать с ними (см. рис. 4).
Если вместо текста иероглифы в Microsoft Word
Самое первое, на что нужно обратить внимание — это на формат файла. Дело в том, что начиная с Word 2007 появился новый формат — « docx » (раньше был просто « doc «). Обычно, в «старом» Word нельзя открыть новые форматы файлов, но случается иногда так, что эти «новые» файлы открываются в старой программе.
Просто откройте свойства файла, а затем посмотрите вкладку « Подробно » (как на рис. 5). Так вы узнаете формат файла (на рис. 5 — формат файла «txt»).
Если формат файла docx — а у вас старый Word (ниже 2007 версии) — то просто обновите Word до 2007 или выше (2010, 2013, 2016).
Рис. 5. Свойства файла
Далее при открытии файла обратите внимание (по умолчанию данная опция всегда включена, если у вас, конечно, не «не пойми какая сборка») — Word вас переспросит: в какой кодировке открыть файл (это сообщение появляется при любом «намеке» на проблемы при открытии файла, см. рис. 5).
Рис. 6. Word — преобразование файла
Чаще всего Word определяет сам автоматически нужную кодировку, но не всегда текст получается читаемым. Вам нужно установить ползунок на нужную кодировку, когда текст станет читаемым. Иногда, приходится буквально угадывать, в как был сохранен файл, чтобы его прочитать.
Рис. 7. Word — файл в норме (кодировка выбрана верно)!
Смена кодировки в браузере
Когда браузер ошибочно определяет кодировку интернет-странички — вы увидите точно такие же иероглифы (см. рис 8).
Рис. 8. браузер определил неверно кодировку
Чтобы исправить отображение сайта: измените кодировку. Делается это в настройках браузера:
Таким образом в этой статье были разобраны самые частые случаи появления иероглифов, связанных с неправильно определенной кодировкой. При помощи выше приведенных способов — можно решить все основные проблемы с неверной кодировкой.
Буду благодарен за дополнения по теме. Good Luck
Alexander Mikhaylov
27.03.2021
настолько тупо, что даже гениально
открой пдф и наведи на экран google lens, он распознает текст и даст скопировать
Ответить
Развернуть ветку
Alexander Mikhaylov
27.03.2021
глянь че могу
https://brandfolder.com/workbench/extract-text-from-image
короче
все еще так тупо, что аж гениально
делаешь, сука, скриншот страницы
загружаешь в тулзу
получаешь текст
с самой пдфкой ничего не сделал, нужно именно в изображение конвертнуть тем или иным способом
ну или можешь попробовать всю пдфку конвертнуть в жипег и разом прогнать
д
medical
equipment
МЕДИЦИНСКАЯ
БАЛЬНЕОЛОГИЧЕСКАЯ ВАННА
Technomex, Польша
T-MP DISCOVERY
T-MP UWM
Ванна T-MP Discovery предназначена для классических бальнеоло-
гических процедур с применением лекарственных настоев или ме-
дикаментов. Прекрасно подходит для принятия ванн использова-
нием местных минеральных вод.
Современный дизайн и эргономичная форма чаши ванны позволяют
пациенту расслабиться во время процедуры и обеспечивают более
эффективную терапию.
Дополнительными модификациями ванны являются:
• T-MP/B/Discovery — модель для грязевых процедур
• T-MP/S/Discovery — модель для солевых растворов
• T-MP/S/B/Discovery — модель для соленой воды, сероводорода
и грязевых ванн
• T-MP/K Discovery — модель для принятия ванн с углекислотой
СПЕЦИФИКАЦИЯ
Ванна T-MP UWM предназначена для проведения подводного руч-
ного массажа при помощи гибкого шланга со сменными наконечни-
ками. Интегрированные в конструкцию ванны регулятор давления и
манометр позволяют точно дозировать силу водяной струи, исходя-
щей из гидромассажного шланга от 0 до 6 бар (атмосфер).
Объем
Модель ванны
Тип
Габаритные
размеры (мм)
2200 x 950 x 980
01.501.119
T-MP Discovery
240
Электронная панель управления позволяет легко программировать
время автоматического гидромассажа. В зависимости от необходи-
мого эффекта для увеличения интенсивности воздействия в воду
могут добавляться биологически активные субстанции (масла, экс-
тракты трав).
Ванна имеет два уровня наполнения: на 200 и 350 литров.
01.501.121
T-MP/B/Discovery
240
2200 x 950 x 980
01.501.120
240
2200 x 950 x 900
T-MP/S/Discovery
T-MP/S/B/Discovery
01.501.124
240
2200 x 950 x 900
Вследствие небольшого объема ванна идеально подходит для про-
ведения ручного подводного массажа детей и подростков.
СПЕЦИФИКАЦИЯ
Модель ванны
Тип
Объем (л)
Габаритные
размеры (мм)
01.501.004
T-MP UWM
250
2080 x 840 x 740
СТАНДАРТНЫЕ ЦВЕТА ВАНН
2004
10217
6027
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
Спасибо, ABBYY FineReader смог весь текст вытянуть.
Ответить
Развернуть ветку
Alexander Mikhaylov
27.03.2021
ну да не спорю
но я все равно не верю, что нельзя добиться, и чтобы шрифты не слетали, и чтобы текст был копируемым
ну не может такого быть
Ответить
Развернуть ветку
Алекс Comrad Cwood Никишкин
27.03.2021
Ну, так бывает, это жизнь. Тут всякое бывает.
В типографии на их компуктерах может не быть тех шрифтов, которые ты выбрал и у них макет пойдет по пизде.
Поэтому проще скривить текст.
Ответить
Развернуть ветку
Алекс Comrad Cwood Никишкин
27.03.2021
Скинул, да. Поверь, там ничего любопытного. 66 страниц скривленного текста. Много унылой и нудной работы. Текст в кривых.
Пацану только посочувствовать можно.
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
ну закинул я файл, после обработки — ссылку на ресурс только , все что я получил
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
Ну так и меня было, только когда файл открыл там был только ссылка на ресурс
Ответить
Развернуть ветку
Греческий дебаркадер
27.03.2021
Не повезло тебе, у меня нормальный текстовый документ со всем текстом.
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
Тут скорее всего в моем файле проблемы
Ответить
Развернуть ветку
Lixius Ketten
27.03.2021
При копировании теста с pdf файла иероглифы
Несовместимость шрифтов, возможно?
Если бы была защита от копирования, ты бы просто не смог копировать, без подобных фокусов.
Ответить
Развернуть ветку
Skyimp
27.03.2021
Это не вопрос несовместимоти, по каким-то причинам при копировании из pdf текст превращается в кракозябры
Ответить
Развернуть ветку
Михаил Быстрянцев
27.03.2021
по каким-то причинам при копировании из pdf текст превращается в кракозябры
Это специфика формата PDF, он изначально был задуман для отображения графического содержимого и устроен так, что в нём хранятся коды глифов (символов шрифта) и сами изображения глифов. Дальше просто этими глифами рисуется страница. А уж совпадают ли коды глифов с кодами Unicode — это уже на совести тех, кто эти документы формирует. Там даже возможность добавлять текстовый слой не сразу появилась, да и к тому же чаще всего в нём просто криво распознанный при сканировании текст.
Короче, с форматом произошло примерно то же, что и с GIF — его начали использовать не по назначению и он широко распространился, хотя вариант был не самый удачный. Но если GIF мы уже пережили (хотя по привычке называем так небольшие встраиваемые видео), то решения проблемы текста в PDF на горизонте пока не видно.
Ответить
Развернуть ветку
Skyimp
27.03.2021
Ну… по сути как бы я не создавал пдфы, всегда кракозябры почему-то при копировании вылетают…
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
T-MP Discovery
LjǁǀDŽǒDŽljǍdžƼǛ
ƽƼLJǘljǁNJLJNJƿDŽǓǁǍdžƼǛƾƼljljƼ
ࢸޖƫƫࢸࡵfࠥࡘ-9$3='[email protected]Ʈ࣪ƣƫࢸƥƫࢸƴ࣪ƫࢸƣƨƽƧƨࣛࣛࢸƦƴࣛ࣪ƧƦƞࢸƨƹƫ࣪१ƨ१f
ơƦƴࣛ࣪ƧƦƮ१Ʋ࣪ƣ৬ࣛƮƦƪ࣪ƫ࣪ƫƦ࣪ƪƨ࣪ƧࢸࣛƯƠ࣪ƫƫƸƫࣛࢸƯ१࣪ƠƦƨƦƪ࣪f
ƣƦƧࢸƪ࣪ƫƯ१ƠWƋ࣪Ƨࣛࢸƫ१Ʈ१ƣ१ƣƦƯƣƨƽƮƦƫƽƯƦƽƠࢸƫƫࣛƦࣛƮ१ƨƹƥ१Ơࢸf
ƫƦ࣪ƪƪࣛ࣪ƯƫƸƪƦƫ࣪ࢸƨƹƫƸƠ१ƣW
Ответить
Развернуть ветку
Skyimp
27.03.2021
Зачем было удалять предыдущий пост я не понял, ты мог через редактор просто заново его запостить, но в другом подсайте
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
Да я хз как тут происходит, посоветовали написать в вопросы, я написал.
Ответить
Развернуть ветку
Аккаунт удален
27.03.2021
Комментарий недоступен
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
T-MP Discovery
LjǁǀDŽǒDŽljǍdžƼǛ
ƽƼLJǘljǁNJLJNJƿDŽǓǁǍdžƼǛƾƼljljƼ
ࢸޖƫƫࢸࡵfࠥࡘ-9$3='[email protected]Ʈ࣪ƣƫࢸƥƫࢸƴ࣪ƫࢸƣƨƽƧƨࣛࣛࢸƦƴࣛ࣪ƧƦƞࢸƨƹƫ࣪१ƨ१f
ơƦƴࣛ࣪ƧƦƮ१Ʋ࣪ƣ৬ࣛƮƦƪ࣪ƫ࣪ƫƦ࣪ƪƨ࣪ƧࢸࣛƯƠ࣪ƫƫƸƫࣛࢸƯ१࣪ƠƦƨƦƪ࣪f
ƣƦƧࢸƪ࣪ƫƯ१ƠWƋ࣪Ƨࣛࢸƫ१Ʈ१ƣ१ƣƦƯƣƨƽƮƦƫƽƯƦƽƠࢸƫƫࣛƦࣛƮ१ƨƹƥ१Ơࢸf
ƫƦ࣪ƪƪࣛ࣪ƯƫƸƪƦƫ࣪ࢸƨƹƫƸƠ१ƣ
Ответить
Развернуть ветку
Skyimp
27.03.2021
Кинь файл в файлообменник какой-нить и кинь его сюды
Ответить
Развернуть ветку
Clicl
27.03.2021
Автор
Все получилось, тема закрыта, всем спасибо
Ответить
Развернуть ветку
Читать все 41 комментарий
Как преобразовать ANSI в UTF?
Попробуйте «Настройки» -> «Настройки» -> «Новый документ» -> «Кодировка» -> выберите UTF-8 без спецификации и установите флажок «Применить к открытым файлам ANSI». Таким образом, все открытые файлы ANSI будут обрабатываться как UTF-8 без спецификации.
Как изменить кодировку текста PDF с ANSI на UniCode?
Создайте новый документ в Notepad++, убедитесь, что в меню «Кодировка» выбрано «Кодировать в ANSI», вставьте туда текст, затем выберите «Преобразовать в UTF-8 без спецификации» в меню «Кодировка». Вы также можете попробовать использовать Decoder, бесплатный онлайн-инструмент для устранения проблем с кодировкой.
Как изменить системную кодировку?
Как изменить кодировку по умолчанию в Блокноте
- Нажмите Win + R, чтобы открыть окно «Выполнить».
- Введите regedit и нажмите кнопку Enter.
- Щелкните по кнопке Да.
- Перейдите в Блокнот в HKCU.
- Щелкните правой кнопкой мыши Блокнот > Создать > Значение DWORD (32-разрядное).
- Назовите его iDefaultEncoding.
- Дважды щелкните по нему, чтобы установить данные значения.
- Нажмите кнопку ОК.
Как изменить ANSI на UTF-8 в Notepad++?
Откройте файл, который вы хотите проверить/исправить, в Notepad++. В верхнем меню выберите «Кодировка» > «Преобразовать в UTF-8» (вариант без спецификации). Сохраните файл.
Как изменить кодировку в Word?
Выберите стандарт кодировки при открытии файла
- Перейдите на вкладку «Файл».
- Нажмите Опции.
- Нажмите Дополнительно.
- Прокрутите до раздела «Общие» и установите флажок «Подтверждать преобразование формата файла при открытии». …
- Закройте и снова откройте файл.
- В диалоговом окне «Преобразовать файл» выберите «Закодированный текст».
Шаг 1 — Откройте файл необработанных данных в Блокноте. Шаг 2 – Перейдите в меню «Файл»; выберите «Сохранить как». Шаг 3. Измените параметр «Кодировка» с UTF-8 на ANSI и сохраните файл. Шаг 4. Нажмите «ОК», когда появится предупреждение о преобразовании в кодировку ANSI.
Как удалить кодировку из PDF?
Как удалить шифрование из файла PDF
- Запустите Adobe Acrobat на вашем компьютере.
- Откройте защищенный PDF-файл и введите пароль при появлении запроса. …
- Нажмите «Дополнительно» в верхней части окна Acrobat. …
- Нажмите «ОК», чтобы подтвердить действие и удалить шифрование. …
- Нажмите «Ctrl-S», чтобы сохранить незашифрованный файл PDF.
Как исправить кодировку в PDF?
Возможное решение, если это простой PDF-документ:
- Экспорт PDF в Word. …
- Проверьте форматирование в новом документе Word и убедитесь, что оно правильное.
- Запустите средство проверки доступности Word и устраните все ошибки и предупреждения, которые могут вызвать ошибки в программе PDF.
- Экспорт документа Word в PDF.
Как изменить кодировку по умолчанию в Windows 10?
Re: Кодировка по умолчанию для блокнота UTF8 Windows 10, версия 1903
- Щелкните правой кнопкой мыши на рабочем столе, затем выберите «Создать»> «Текстовый документ».
- Текстовый файл New Text Document. …
- Перейдите в меню «Файл»> «Сохранить как…» и выберите «UTF-8» в разделе «Кодировка:», нажмите «Сохранить» и перезапишите существующий файл. …
- Переименовать новый текстовый документ. …
- Скопируйте «TXTUTF-8.
Какой ЧКП 65001?
На GitHub есть много кодов, использующих chcp 65001. Это хак для отображения UTF-8 в командной строке Windows. Вероятно, этот хак может хорошо работать на не многобайтных локалях. Но это неправильно работает с многобайтовыми локалями. Например, jq использовал этот хак.
Что такое кодировка ANSI?
Кодировка ANSI — это немного общий термин, используемый для обозначения стандартной кодовой страницы в системе, обычно в Windows. В западных/американских системах ее более правильно называть Windows-1252. (Он может представлять некоторые другие кодовые страницы Windows в других системах.)
Как избавиться от спецификации UTF-8?
Шаги
- Загрузите Notepad ++.
- Чтобы проверить, существует ли символ спецификации, откройте файл в Notepad++ и посмотрите в правый нижний угол. Если он говорит UTF-8-BOM, то файл содержит символ BOM.
- Чтобы удалить символ спецификации, перейдите в раздел «Кодировка» и выберите «Кодировать в UTF-8».
- Сохраните файл и повторите попытку импорта.
Является ли UTF-8 таким же, как ANSI?
ANSI и UTF-8 являются форматами кодирования. ANSI — это распространенный однобайтовый формат, используемый для кодирования латинского алфавита; тогда как UTF-8 — это формат Unicode переменной длины (от 1 до 4 байтов), который может кодировать все возможные символы.