Перевод PDF-файлов
Представьте, что вы отправляете свой PDF-документ в переводческую компанию и получаете обратно готовый документ в том же формате на нужном языке, который ничем, кроме языка, не отличается от исходного. При работе с Trusted Translations — это возможно. Мы не только качественно переводим тексты, но и можем перевести и подготовить к печати или публикации даже самые сложные PDF-документы.
Перевод PDF-файлов
Выбирая Trusted Translations для своих проектов по переводу PDF-файлов, вы гарантированно получаете профессионально подготовленные документы, которыми сразу можно пользоваться. Независимо от того, имеет ли исходный документ, который вы нам отправите, формат PDF или нет, наши специалисты сделают так, чтобы каждый элемент исходного документа правильно отображался и выполнялся. Наши лингвисты являются экспертами в своих областях и делают переводы, которые максимально точно передают все особенности исходного текста. Кроме того, они локализуют перевод, чтобы вы могли охватить как более широкую аудиторию по всему миру, так и сосредоточиться на конкретной целевой группе. Наши специалисты по компьютерной верстке изменят макет переведенного документа, чтобы он выглядел так же, как исходный PDF-документ. Поэтому заказав в
Универсальное решение по переводу PDF-документов
Достаточно часто, получая переведенный текст от бюро переводов, вам приходится искать компанию, специализирующуюся в графическом дизайне, которая бы настроила форматирование и графику в готовом документе. Преимущество работы с
- После перевода клиент получает конечный готовый продукт. Никаких дополнительных действий. Вы отдаете нам PDF-файл и получите взамен профессионально переведенный и готовый к печати документ.
- Обычно дешевле обращаться в одну компанию за услугами перевода и допечатной подготовки, чем нанимать две компании для выполнения каждой отдельной задачи. Кроме того, по запросу мы готовы сотрудничать с вашей командой дизайнеров или командой вашего клиента.
- Еще одним преимуществом является то, что переводчик может посмотреть, как переведенный текст будет выглядеть в макете исходного документа.
Работа с Trusted Translations позволяет пользоваться всеми этими преимуществами. Когда мы отдаем переведенный PDF-документ, вам не о чем беспокоиться — он будет выглядеть так, как если бы он был оригиналом. Отправляя Trusted Translations документы в формате PDF, вы получаете профессионально переведенные и готовые к печати документы в том же формате.
Как сделать веб-сервис для конвертации файлов Excel, Word, TXT и других в PDF в режиме «как вижу»
Откуда пошла дурацкая привычка сохранять счета, бухгалтерские и финансовые документы в формате MS Excel? Зачем хранить и передавать документы, предназначенные для печати в формате электронной таблицы, если есть специальный формат PDF? Однако, во всех бухгалтерских программах документы в первую очередь обязательно экспортируются в MS Excel и уже потом предлагаются альтернативные способы сохранения документов. От сюда и возникла задача: пусть бухгалтер сохраняет свои документы как хочет, но клиент должен получить их в формате PDF и обязательно точно в том образе, который бухгалтер сваял в шаблоне MS Excel.
В качестве бухгалтерской программы мы использовали бесплатную
ВС: Бухгалтерию. (По правде сказать из этой программы можно сразу сохранять документы в PDF, но раз сказали excel, значит – excel.)
Бухгалтер выгружает XLS-файл в определенный каталог на диске, откуда мы должны его забрать, перевести в PDF и сохранить в другой каталог. Все это должно быть реализовано в виде веб-сервиса, то есть клиент должен увидеть и иметь возможность скачать свои pdf-документы в «Личном кабинете» на сайте.
Пути решения:
Первое, что захотелось сделать, – это отыскать готовую библиотеку для PHP или Perl и прямо «на лету» конвертировать файлы.
Такие библиотеки для работы с форматом Excel действительно нашлись, например: PHPExcel, PHPExcelReader, Spreadsheet::ParseExcel и др.
Эти библиотеки действительно хорошо работают, но делают именно то, для чего предназначены: выискивают данные в электронной таблице Excel и оперируют с ними.
Нам же нужно совсем иное – получить экселевскую таблицу в виде как для печати, со всеми картинками с печатями и подписями, с форматами шрифтов, и ячеек.
Второй вариант решения — виртуальный принтер. Суть его в том, что мы открываем файл в подходящей программе и отправляем его на печать, но не на настоящий принтер, а – на виртуальный, который вместо бумаги сохранит в файл, сначала в постскрипт формате ps, а потом сделает из него файл PDF.
Поскольку система ко всему еще и должна функционировать как веб-сервис, я выбрал в качестве платформы Linux с Apache. А в качестве программы, которая умеет открывать все файлы MS Office – бесплатный OpenOffice.org 3.4
Итак, что делаем:
предлагают устанавливать версию OpenOffice.org 2.4 обязательно -headless, но я просто установил OpenOffice.org 3.4 из репозитория и все получилось.
После установки я попробовал запустить программу, но система отказалась, захотев еще Java Runtime Environment. А нужен ли он? Оказалось, что нет. И запускать OpenOffice целиком, чтобы отправить файл на виртуальный принтер вовсе ни к чему. У программы есть прекрасный конвертер в pdf, который легко вызвать из командной строки.
Делается это так:
Создаем конвертер в PDF
Создаем bash-файл, например с именем converter.sh
<code> <source lang="bash"> #!/bin/bash # Проверяем где установлен OpenOffice.org и PYTHON. #Поправьте пути вручную, если они отличаются на вашей системе OOFFICE=`ls /usr/bin/openoffice.org3 /usr/bin/ooffice /usr/lib/openoffice/program/soffice | head -n 1` OOOPYTHON=`ls /opt/openoffice.org*/program/python /usr/bin/python | head -n 1` if [ ! -x "$OOFFICE" ] then echo "Could not auto-detect OpenOffice.org binary" exit fi if [ ! -x "$OOOPYTHON" ] then echo "Could not auto-detect OpenOffice.org Python" exit fi echo "Detected OpenOffice.org binary: $OOFFICE" echo "Detected OpenOffice.org python: $OOOPYTHON" # Reference: http://wiki.services.openoffice.org/wiki/Using_Python_on_Linux # If you use the OpenOffice.org that comes with Fedora or Ubuntu, uncomment the following line: # export PYTHONPATH="/usr/lib/openoffice.org/program" # If you want to simulate for testing that there is no X server, uncomment the next line. #unset DISPLAY # Kill any running OpenOffice.org processes. killall -u `whoami` -q soffice # Это важная строчка: программа пытается скачать из сети скрипт на языке Python, который как раз #нужен OpenOffice для конвертации файлов. Если все хорошо, то после запуска converter.sh в #каталоге появится файл с именем DocumentConverter.py. #Если не получилось — скачайте файл DocumentConverter.py #вручную по адресу ниже и поместите в один каталог с этим скриптом. #Проверьте чтобы порт в скрипте был указан 8100 test -f DocumentConverter.py || wget http://www.artofsolving.com/files/DocumentConverter.py # Start OpenOffice.org in listening mode on TCP port 8100. $OOFFICE "-accept=socket,host=localhost,port=8100;urp;StarOffice.ServiceManager" -norestore -nofirststartwizard -nologo -headless & # Wait a few seconds to be sure it has started. sleep 5s # Здесь мы перечисляем имена файлов, которые хотим конвертировать: #Имя исходного файла — в какой файл конвертируем. # Самое приятно, что конвертировать можно не только в PDF, но и в любой формат, #поддерживаемый OpenOffice.org # # Из MS PowerPoint во Flash $OOOPYTHON DocumentConverter.py sample.ppt sample.swf #Из Excel в PDF $OOOPYTHON DocumentConverter.py sample.xls sample.pdf # Close OpenOffice.org. killall -u `whoami` soffice #---------------------------------------------------- </source> </code>
Выставьте права для запуска скрипта converter.sh (755)
Поместите в один каталог с этим скриптом (converter.sh) Excel-файл под именем sample.xls, запустите скрипт converter.sh и в каталоге появится файл sample.pdf, который будет копией печатного вида экселевского файла.
Пол-дела сделано. Теперь нам нужно организовать процесс конвертации в виде веб-сервиса.
Можно, конечно, поместить файл converter.sh в каталог /cgi-bin/ Apache и запускать сразу его, но тут уже начинаются задачи обеспечения безопасности. К вопросу безопасности такого сервиса нужно подойти очень тщательно, ведь мы собираемся передавать скрипту неизвестные файлы и разрешать ему сохранять неизвестно что на диске.
Какие обнаружились проблемы, после реализации сервиса конвертации.
Оказалось, что Linux не понимает файлы с именами русскими буквами в кодировке windows-1251. Что тут можно сделать:
1. Уговорить бухгалтера сохранять файлы с латинскими именами (сложно)
2. Конвертировать имя файла в utf-8 при загрузке в каталог (вполне реально)
Под Windows конвертер реализовать тоже оказалось несложно
Я сделал так:
1. Скачал и установил
LibreOffice 3.42. Скачал
PyODConverter3. Сохранил файл DocumentConverter.py в рабочем каталоге, например, C:\test\
4. Поменял в файле DocumentConverter.py константу DEFAULT_OPENOFFICE_PORT = 8100 (по умолчанию там был указан другой порт)
5. Поместил в каталог C:\test\ пробный файл для конвертации – test.xls
Теперь запускаем процесс конвертации.
Сначала запускаем OpenOffice в скрытом режиме. В командной строке (cmd) пишем:
"C:\Program Files\LibreOffice.org 3.4\program\soffice.exe" -headless -nologo -norestore -accept=socket,host=localhost,port=8100;urp;StarOffice.ServiceManager
Здесь важно, чтобы порт совпадал с DEFAULT_OPENOFFICE_PORT
Теперь запускаем конвертацию:"C:\Program Files\LibreOffice.org 3.4\program\python" c:\test\DocumentConverter.py c:\test\test.xls c:\test\test.pdf
И в каталоге c:\test\ обнаруживаем конвертированный файл PDF.
Вот и готов конвертер файлов xls, doc, docx, rtf, txt, odt, ott, sxw, stw, html, xml, в общем всего, что откроет OpenOffice.
Часто задаваемые вопросы | Электронное правительство Республики Казахстан
Регистрация в Мобильном правительстве БМГ доступна через ПЭП и EGOV MOBILE.
При регистрации необходимо указать номер мобильного телефона.
Регистрация через портал:
Для регистрации своего номера телефона в БМГ, нужно:
- Зайти на портал eGov.kz;
- Авторизоваться при помощи ЭЦП;
- Пройти в Личный Кабинет;
- Указать или изменить ваш номер телефона(Необходимо нажать на карандаш редактировать и внести номер телефона).
- Подтвердить и подписав при помощи ЭЦП.
После, ваш номер будет автоматически внесен/изменён в Базу мобильных граждан.
Внимание: для регистрации номера телефона наличие ЭЦП обязательно!
Регистрацию на Портале электронного правительства (egov.kz)+ ЭЦП+ БМГ
В мобильном приложении eGov mobile упрощена регистрация нового пользователя.
Регистрация именно для пользователей, которые первый раз зарегистрировались на егове, если пользователь уже зарегистрирован, то само приложения выдаст только ЭЦП, если пользователь не зарегистрирован в БМГ, то приложение само зарегистрирует в БМГ.
Пройдя биометрическую идентификацию личности, вы одномоментно получите:
- ЭЦП
- регистрацию в Базе мобильных граждан (БМГ)
- регистрацию на Портале электронного правительства (egov.kz).
Для этого:
- На странице авторизации нажмите на кнопку «Зарегистрироваться».
- Откроется сервис биометрической идентификации — Digital id, введите номер телефона, проверочный код из смс, пройдите регистрацию в Digital id.
- Пройдите видео идентификацию и разрешите доступ eGov mobile к данным уд.личности и номеру телефона.
- После успешного подтверждения личности, требуется ответить на проверочные вопросы. Далее нажмите на кнопку «Продолжить».
- Откроется страница «Выпуск ЭЦП» заполните адрес эл.почты и введите пароль для ЭЦП (этот пароль также будет явл. паролем к личному кабинету на портале электронного правительства, если ранее не было регистрации в ЛК), далее нажмите на кнопку «Продолжить».
- В новой странице нажмите на кнопку «Продолжить».
- После успешной регистрации установите код быстрого доступа к приложению и привяжите Face id/touch id.
Google Translate PDF ⭐️ DocTranslator
Google Переводчик PDF
Перевод документов с помощью Google может быть непростым делом, поэтому сначала попробуйте перевести их с помощью DocTranslator. Для этого следуйте этой простой инструкции.
- Создайте бесплатную учетную запись на сайте: DocTranslator.com
- Перейдите на вкладку «Переводы » и выполните 4 простых шага.
- Шаг 1. Выберите файл
- Шаг 2. Выберите исходный язык
- Шаг 3. Выберите целевой язык
- Шаг 4. Загрузка
- Перевод начинается, и статус меняется на « Processing »
- Подождите немного, появится страница загрузки.
- Нажмите кнопку « Скачать » и сохраните переведенный файл.
Как перевести файл Word?
Как перевести файл PDF?
Как перевести файл PDF с помощью Google Translate?
На самом деле все очень просто!
Вот шаги:
- Посетите инструмент «Перевести документ».
- Выберите язык для перевода с и с на . Или оставьте язык по умолчанию на «Определить язык».
- Нажмите «Выбрать файл» , а затем синюю кнопку «Перевести» .
- Позвольте Google творить чудеса.
- Откроется всплывающее окно с переведенным файлом PDF. Фактический PDF-файл не предоставлен.
Как перевести файл PDF без потери формата — alfanoTV
Переводите руководства или технические брошюры в том виде, в котором они отображаются на языке оригинала. .
Формат PDF широко используется для публикации брошюр, каталогов продукции или руководств по технологическим артефактам, поэтому вполне возможно найти этот класс документов на чужом языке, поскольку их необходимо перевести, чтобы понять их.
Программы для перевода PDF Гугл переводчикДля этого могут использоваться различные настольные программы и сервисы онлайн-перевода, в том числе Google Translate , однако у них есть недостаток: они работают в текстовом режиме , что препятствует переводу документа с большим количеством иллюстративных графических элементов плавно.
Онлайн-переводчик документовК счастью, есть онлайн-инструмент, способный переводить PDF-документ, полностью сохраняя его первоначальный дизайн и структуру. Это Online DocTranslator , веб-сервис на основе Google Translate, который, помимо PDF, предлагает поддержку для перевода документов в другие популярные форматы. Мы покажем вам, как использовать его для перевода файлов в формате PDF.
Как перевести PDF без потери формата- Войдите в Online DocTranslator из браузера своего ПК и щелкните вкладку Translator .
- Загрузите файл PDF или перетащите его из проводника Windows в поле на экране. Выберите исходный и целевой язык и нажмите Перевести .
- Подождите несколько секунд, пока файл PDF будет обработан, а затем нажмите Загрузите переведенный документ!
Изображение Gerd Altmann с сайта Pixabay
СМОТРИ ТАКЖЕ:
526 просмотров всего, сегодня 5 просмотров
Служба перевода документов Azure не может переводить файлы PDF
Я разрабатываю веб-приложение, которое может переводить файлы PDF с помощью службы перевода документов Azure, и столкнулся с следующей проблемой блокировки.
Каждый запрос на перевод для файла pdf отправляется, а затем статус перевода всегда не выполняется, а статус документа постоянно указывает на недопустимый документ из-за повреждения или неподдерживаемого типа / расширения. Ниже приведены примеры запроса и соответствующего неудачного ответа.
запрос:
{
«входов»: [
{
«storageType»: «Файл»,
«источник»: {
«sourceUrl»: «https://my.blob.core.windows.net/public- файл / a95e8311b924453ea18fd735cdb9535c.pdf? sv = 2020-04-08 & st = 2021-08-27T09% 3A13% 3A18Z & se = 2021-08-28T09% 3A13% 3A18Z & sr = b & sp = r & sig = cTztb3rwYzFreC9fh81IfVFefwAJFG14c9fh81IfVFefwAJFG14c148fCV0 «, 90%», 909 «, 90%: «targetUrl»: «https://my.blob.core.windows.net/public-file/a95e8311b924453ea18fd735cdb9535c_translated.pdf?sp=wl&st=2021-08-27T09:14:41Z&se=2021-08-28T09:14:41Z&se=2021-08-28T09:14:41Z&s = 2020-08-04 & sr = c & sig = D4RrSiL0bGdy% 2BXNCUYEm94h0CHzNCv1% 2FN% 2B7nsDxRcY0% 3D «,
» язык «:» zh-Hans «
}
]
}
]
}
ответ:
{
«значение»: [
{
«sourcePath»: «https: // my.blob.core.windows.net/public-file/a95e8311b924453ea18fd735cdb9535c.pdf «,
» createdDateTimeUtc «:» 2021-08-27T09: 56: 58.5368104Z «,
» lastActionDateTimeUtc «:» 2092110: «2092110:» 2092110: » Z «,
» status «:» Failed «,
» to «:» zh-Hans «,
» error «: {
» code «:» InvalidRequest «,
» message «:» Документ не прошел проверку действительности. Это может быть вызвано повреждением или неподдерживаемым типом / расширением. «,
» target «:» Document «,
» innerError «: {
» code «:» InvalidDocument «,
» message «:» Ошибка при проверке действительности документа.Это может быть вызвано повреждением или неподдерживаемым типом / расширением. «
}
},
» progress «: 0,
» id «:» 273622bd-835c-4946-9798-fd8f19f6bbf2 «,
» characterCharged «: 0
}
]
}
Я проверил каждый PDF-файл, загруженный в хранилище BLOB-объектов Azure. Каждый из них открыт, и никто не обнаружен поврежденным. Я пробовал использовать файлы других форматов, например текстовые файлы или файлы Word. Их можно переводить, в то время как файлы pdf кажутся единственным форматом, который не может. Служба временно недоступна для перевода файлов pdf или в запросе отсутствуют какие-либо обязательные параметры для перевода pdf?
Как перевести PDF
Возможно, вы уже просили своего профессионального переводчика помочь вам с переводом документов в формате Word или Excel.А как насчет PDF? Можно ли перевести PDF-документ? Ответ прост: конечно! Мы понимаем, что у вас не всегда может быть исходный контент в редактируемом формате, но это не мешает процессу получения хорошего перевода. Фактически, независимо от того, доступен ли исходный текст в формате Word или PDF, результат будет одинаковым: высококачественный профессиональный перевод, выполненный лингвистами-носителями языка.
Можете ли вы Google перевести PDF?
При этом вам может быть интересно, действительно ли возможно просто Google Translate PDF.Опять же, да. Мало того, что можно просто скопировать и вставить исходный текст в текстовое поле в Google Translate, они также предлагают возможность переводить ряд типов документов размером до 10 МБ, включая PDF.
Как объясняется в нашем блоге «10 причин, почему человеческий перевод лучше машинного перевода», мы предлагаем использовать Google Translate только в том случае, если все, что вам нужно, — это суть текста на другом языке. Если вы используете перевод для публикации, мы не рекомендуем использовать Google Translate для PDF-документов.Или вообще какие-то документы.
Как переводить PDF-документы
Используя человеческих переводчиков, мы можем переводить документы PDF тремя способами:
1. Преобразуйте PDF-файл в документ Word
Используя такие сайты, как onlinedoctranslator.com или pdfwordconvert.com, вы можете преобразовать PDF-документ в документ Word с таким же макетом и изображениями. Хотя это может быть очень полезным инструментом, макет не всегда выглядит точно в формате Word.Текст может закончиться в текстовых полях, а разрывы строк могут появиться в разных местах, а это означает, что невозможно просто перевести текст в этот преобразованный формат документа Word и сохранить переведенную копию в формате PDF. Если вам не нужна профессионально набранная верстка для переведенных версий.
Стоит упомянуть, что, хотя процесс преобразования происходит очень быстро, поставщику услуг перевода все равно придется дважды проверять, действительно ли весь текст был извлечен из макета.Даже на платные инструменты конвертации PDF нельзя полностью положиться. Все зависит от качества макета PDF и читабельности содержащегося в нем текста.
Если вы хотите, чтобы перевод и набор выполнялись разными профессионалами, мы рекомендуем вручную извлечь текст из PDF в документ Word. По сути, это работа по копированию и вставке. Человеческий глаз может быть более эффективным в обеспечении извлечения всего текста и правильного форматирования (т.е. полужирный или курсив ) применяются к соответствующим частям текста. По нашему опыту, это то, чего часто не хватает в инструментах преобразования PDF. Извлечение текста вручную действительно открывает возможность человеческой ошибки, хотя во многих случаях это может быть более безопасным вариантом, чем полагаться на технологии.
Затем этот документ Word можно импортировать в CAT-программу для создания двуязычного формата файла с исходным текстом слева и соответствующим переводом справа.Это не только очень полезно для переводчика, но и в конечном итоге облегчает жизнь наборщикам, когда дело доходит до включения переведенного текста в исходный макет.
3. Используйте CAT-программу
Использование CAT-программы, также известной как программное обеспечение памяти переводов, является популярным подходом для многих клиентов, поскольку он позволяет сэкономить средства и обеспечивает максимальную согласованность с ранее переведенным содержанием. Многие CAT-программы включают PDF-документы как часть поддерживаемых типов файлов.Подход аналогичен подходу других инструментов конвертера PDF-документов в том, что после завершения перевода переведенная версия может быть экспортирована как документ Word, который отражает макет PDF-документа (или около того).
Другой способ интегрировать CAT-инструмент в рабочий процесс для создания переведенного PDF-файла — предоставить вашему бюро переводов ваш контент в его собственном файловом формате, таком как Adobe InDesign (INDD или IDML). Если CAT-программа поддерживает такие типы файлов, а большинство из них сейчас поддерживает, эти файлы можно импортировать в CAT-инструмент, перевести и вернуть в своем собственном формате файла и сохранить как PDF.Звучит достаточно просто, но стоит иметь в виду, что внештатный переводчик или небольшой поставщик языковых услуг может не иметь установленных на своем компьютере приложений, таких как InDesign, и, вероятно, потребуется дополнительная работа над макетом, чтобы убедиться, что переведенный PDF-файл выглядит такой же визуально привлекательный, как и оригинал. Если вам нужно перевести много PDF-файлов, возможно, стоит подумать о работе с бюро переводов, а не со специалистом-фрилансером, поскольку они с большей вероятностью смогут помочь с многоязычным набором текста.Ознакомьтесь с нашими главными советами в нашем блоге о том, как найти подходящее бюро переводов.
На что следует обратить внимание при верстке переводов
Если вы хотите, чтобы ваш перевод был набран таким образом, чтобы переведенный PDF-файл соответствовал внешнему виду оригинала, следует учитывать несколько дополнительных моментов:
- Расширение: , когда английский является вашим исходным языком, а ваши целевые языки включают один или несколько европейских языков, стоит убедиться, что в макете вашего PDF-файла есть дополнительное пространство для расширения.По нашему опыту, английский текст может увеличиваться примерно на 25% при переводе на французский и до 30% при переводе на немецкий. Предоставление места в макете с самого начала позволит избежать возможных задержек и дополнительных затрат, когда дело доходит до верстки перевода в формат PDF. Если нет места для расширения, вашим дизайнерам, возможно, придется внести изменения в макет, чтобы он соответствовал переведенному тексту.
- Шрифты: языков, использующих разные алфавиты, такие как русский и греческий, и языки, использующие символы, такие как китайский и японский, будут дополнительно учитывать замену шрифтов.Шрифты, используемые в исходном исходном PDF-файле, не обязательно будут содержать буквы с диакритическими знаками или поддерживать символьные языки. В лучшем случае использование оригинальных шрифтов приведет к тому, что перевод будет не совсем правильным для носителя языка. В худшем случае вы увидите кучу испорченных символов или ряды пустых ящиков, известных как тофу. Таким образом, вам может потребоваться выбрать заменяющие шрифты для использования в переведенных версиях PDF-файлов.
- Изображений: это то, что часто можно упустить из виду.Являются ли изображения в вашем макете культурно приемлемыми и актуальными для всех ваших рынков? Как и при неправильном переводе, изображение, оскорбляющее конкретный рынок, демонстрирует отсутствие культурных особенностей и потенциально может потерять клиентов. То же самое можно сказать и об изображениях, к которым ваша целевая аудитория не имеет отношения, например о продукте, который недоступен в их стране. Изображения так же важны, как и перевод, поэтому лучше сделать это правильно с первого раза.
Таким образом, конечно, можно перевести документ PDF.В Planet Languages мы можем посоветовать вам лучший способ перевода вашего PDF-файла. А с нами вы можете быть уверены, что наши лингвисты будут иметь доступ ко всему, что им нужно: полный исходный текст для перевода в редактируемом формате для интеграции с CAT-инструментами, а также исходный документ PDF для визуального ознакомления. Мы даже идем еще дальше и предлагаем услуги набора специалистами, занимающимися набором иностранных языков. Мы позаботимся обо всем от начала до конца, чтобы вы получили готовый продукт, готовый к печати.
Об авторе
Келли Руско окончила Университет Сент-Эндрюс со счетом 2: 1 по немецкому, русскому и испанскому языкам с отличием по разговорному немецкому языку. Во время учебы в университете она в течение года преподавала английский язык в Германии и один семестр изучала русский язык в Санкт-Петербурге. В качестве менеджера проектов она координирует проекты многоязычных переводов и помогает своим коллегам в знании родного и изучаемого языков. Когда она не работает, ее можно найти, уткнувшись носом в книгу, стучащей по тротуару или волнующейся в бассейне.
Перевод документов PDF с помощью Amazon Translate и Amazon Textract
В 1993 году родился и широко распространен формат Portable Document Format или PDF. С тех пор компании из различных отраслей создают, сканируют и хранят большие объемы документов в этом цифровом формате. Эти документы и их содержимое жизненно важны для поддержки вашего бизнеса. Тем не менее, во многих случаях контент содержит много текста и часто написан на другом языке.Это ограничивает поток информации и может напрямую влиять на продуктивность бизнеса вашей организации и стратегию глобального расширения. Чтобы решить эту проблему, вам необходимо автоматическое решение для извлечения содержимого из этих PDF-файлов и их быстрого и экономичного перевода.
В этом посте мы покажем вам, как создать автоматизированный и бессерверный конвейер обработки контента для анализа текста в PDF-документах с помощью Amazon Textract и их перевода с помощью Amazon Translate.
Amazon Textract автоматически извлекает текст и данные из отсканированных документов.Amazon Textract выходит за рамки простого распознавания текста и позволяет также определять содержимое полей в формах и информацию, хранящуюся в таблицах. Это позволяет Amazon Textract читать практически любой тип документа и точно извлекать текст и данные без каких-либо ручных усилий или специального кода.
После извлечения текста и данных вы можете использовать Amazon Translate — службу нейронного машинного перевода, которая обеспечивает быстрый, качественный и доступный языковой перевод. Нейронный машинный перевод — это форма автоматизации языкового перевода, которая использует модели глубокого обучения для обеспечения более точного и естественного перевода, чем традиционные статистические алгоритмы перевода и алгоритмы перевода на основе правил.Служба перевода обучена широкому спектру контента в разных сценариях использования и доменах, чтобы хорошо работать с разными типами контента. Возможность асинхронной пакетной обработки позволяет переводить большую коллекцию текстовых или HTML-документов с помощью одного вызова API.
Обзор решения
Для обеспечения масштабируемости и рентабельности в этом решении используются бессерверные технологии и управляемые службы. Помимо Amazon Textract и Amazon Translate, в решении используются следующие сервисы:
- Amazon Simple Storage Service (Amazon S3) — хранит ваши документы и обеспечивает централизованное управление с точными настройками контроля доступа.
- Amazon Simple Notification Service (Amazon SNS) — позволяет разделить микросервисы, распределенные системы и бессерверные приложения с помощью высокодоступной, надежной, безопасной, полностью управляемой службы обмена сообщениями pub / sub.
- AWS Lambda — запускает код в ответ на триггеры, такие как изменения данных, изменения состояния приложения или действия пользователя. Поскольку такие сервисы, как Amazon S3 и Amazon SNS, могут напрямую запускать функцию Lambda, вы можете создавать различные системы бессерверной обработки данных в реальном времени.
- AWS Step Functions — координирует несколько сервисов AWS в бессерверные рабочие процессы.
Архитектура решения
Рабочий процесс архитектуры состоит из следующих этапов:
- Пользователи загружают PDF-файл для анализа в Amazon S3.
- Загрузка Amazon S3 запускает лямбда-функцию.
- Функция вызывает Amazon Textract для извлечения текста из PDF в пакетном режиме.
- Amazon Textract отправляет уведомление в социальной сети после завершения задания.
- Функция Lambda считывает ответ Amazon Textract и сохраняет извлеченный текст в Amazon S3.
- Функция Lambda из предыдущего шага вызывает Amazon Translate в пакетном режиме для перевода извлеченных текстов на целевой язык.
- Программа опроса заданий на основе Step Functions выполняет опрос на предмет завершения задания на перевод.
- Step Functions отправляет уведомление SNS, когда перевод завершен.
- Функция Lambda считывает переведенные тексты в Amazon S3 и создает переведенный документ в Amazon S3.
Следующая диаграмма иллюстрирует эту архитектуру.
Для масштабной обработки документов вы можете расширить это решение, включив в него Amazon Simple Queue Service (Amazon SQS) для постановки заданий в очередь и обработки любых потенциальных сбоев, связанных с регулированием и ограничениями параллелизма служб по умолчанию. Дополнительные сведения об ограничениях в Amazon Translate и Amazon Textract см. В разделах «Рекомендации» и «Ограничения и ограничения в Amazon Textract» соответственно.
Развертывание решения с помощью AWS CloudFormation
Необходимое условие
Первым шагом является использование шаблона AWS CloudFormation для предоставления необходимых ресурсов для решения, включая роли AWS Identity and Access Management (IAM), политики IAM и темы SNS.
- Запустите шаблон AWS CloudFormation, выбрав следующее (при этом будет создан стек регион
us-east-1
): - Для Имя стека введите уникальное имя стека для этой учетной записи; например,
документ-перевод
. - Для TargetLanguageCode введите код языка, на котором вы хотите перевести документы; например,
es
для испанского.
Для получения дополнительной информации о поддерживаемых языках см. Поддерживаемые языки и языковые коды.
- В разделе «Возможности и преобразования » установите флажки, чтобы подтвердить, что AWS CloudFormation создаст ресурсы IAM и преобразует шаблон AWS Serverless Application Model (AWS SAM).
Шаблоны AWS SAM упрощают определение ресурсов, необходимых для бессерверных приложений. При развертывании шаблонов AWS SAM в AWS CloudFormation AWS CloudFormation выполняет преобразование, чтобы преобразовать шаблон AWS SAM в шаблон CloudFormation. Для получения дополнительной информации см. Преобразование.
- Выберите Создать стопку .
Создание стека может занять до 20 минут, после чего статус изменится на CREATE_COMPLETE
.Вы можете увидеть имя только что созданного сегмента S3 на вкладке Выходы .
Перевод документа
Чтобы перевести документ, загрузите документ на английском языке в папку input
корзины S3, созданной на предыдущем шаге.
Для этого поста мы просканировали «Всеобщую декларацию прав человека», созданную ООН.
Это событие загрузки запускает лямбда-функцию <имя стека> -S3EventProcessor- <Случайная строка>
, которая вызывает API Amazon Textract startDocumentTextDetection
для извлечения текста из отсканированного документа.
Когда Amazon Textract завершает пакетное задание, он отправляет уведомление SNS. Уведомление запускает лямбда-функцию <имя стека> -TextractSNSEventProcessor- <Случайная строка>
, которая обрабатывает ответ Amazon Textract постранично для извлечения элементов блока LINE
для сохранения их в корзине S3.
Amazon Textract извлекает блочных элементов LINE
с помощью BoundingBox
.Предложение в отсканированном документе приводит к множеству элементов блока LINE
. Чтобы обеспечить перевод всего предложения в Amazon Translate, решение объединяет несколько блочных элементов LINE
для воссоздания границы предложения в исходном документе. Это делается с помощью класса BreakIterator
, доступного для Java. Для получения дополнительной информации см. Класс BreakIterator.
Затем предложения сохраняются в корзине S3 как отдельные объекты.Наконец, вызывается задание Amazon Translate startTextTranslationJob
с указанием местоположения входной корзины S3, где доступен переводимый текст.
Уведомление SNS о завершении задания Amazon Translate от опросчика заданий запускает лямбда-функцию <имя стека> -TranslateJobSNSEventProcessor- <Случайная строка>
. Функция создает редактируемый документ путем объединения переведенных текстов, созданных пакетным заданием Amazon Translate в выходной папке корзины S3, со следующим соглашением об именах: inputFileName -TargetLanguageCode.docx
.
На следующем снимке экрана показан документ, переведенный на испанский язык.
Решение также поддерживает перевод документов для языков с написанием справа налево (RTL), таких как арабский и иврит. На следующем снимке экрана показан переведенный документ на арабский язык (код языка : ar
).
В случае сбоя конвейера проверьте журналы Amazon CloudWatch на наличие соответствующей лямбда-функции и найдите потенциальные ошибки, вызвавшие сбой.
Чтобы выполнить перевод на другой язык, вы можете обновить переменную среды LANG_CODE
для функции
и запустить конвейер решения, загрузив новый документ в входная папка
корзины S3.
Заключение
В этой публикации мы продемонстрировали, как извлекать текст из документов PDF и переводить их в редактируемый документ на другом языке с помощью асинхронной пакетной обработки Amazon Translate.В качестве решения для перевода небольших PDF-документов с малой задержкой и низкой пропускной способностью вы можете выполнить перевод с помощью Amazon Translate API в реальном времени.
Возможность масштабной обработки данных становится важной для организаций во всех отраслях. Управляемые сервисы машинного обучения, такие как Amazon Textract и Amazon Translate, могут упростить обработку документов и перевод, помогая вам сосредоточиться на удовлетворении основных бизнес-потребностей, сохраняя при этом общие расходы на ИТ под контролем.
Для дальнейшего чтения мы рекомендуем следующее:
Об авторах
Шива Раджамани (Siva Rajamani) — архитектор корпоративных решений для AWS из Бостона. Ему нравится тесно сотрудничать с клиентами и поддерживать их цифровую трансформацию и внедрение AWS. Его основные направления деятельности — бессерверные системы, интеграция приложений и безопасность. Вне работы он любит активный отдых и смотрит документальные фильмы.
Судханшу Малхотра (Sudhanshu Malhotra) — архитектор корпоративных решений для AWS из Бостона.Он энтузиаст технологий, которому нравится помогать клиентам находить инновационные решения сложных бизнес-задач. Его основные направления деятельности — DevOps, машинное обучение и безопасность. Когда он не работает с клиентами на их пути к облаку, ему нравится читать, ходить в походы и изучать новые кухни.
Как перевести PDF с помощью Python (Google против AWS Translate) — Часть 1: извлечение и перевод текста | by Agnese Kapnere
Пошаговое руководство по чтению и переводу файлов PDF с помощью Google Translate API и AWS Translate API.
Фото Tessakay на PixabayМне нужно было перевести PDF-файл, содержащий текст, с английского на латышский. Это оказалось немного сложнее, чем я первоначально думал, поэтому я решил написать руководство, чтобы поделиться тем, что я узнал, и, надеюсь, сэкономить вам время. Я разделил свой проект на две части.
Эта статья является первой частью и посвящена тому, как читать ваш PDF-файл, извлекать текст и переводить его. В нем рассматриваются два способа перевода текста — с помощью Google Translate и AWS Translate.
Часть 2 рассмотрит, как создать, отформатировать и сохранить новый файл PDF из полученного перевода. В конце статьи вы найдете ссылку на мой проект на GitHub с полным кодом.
- Как читать файлы PDF с помощью библиотеки Python
PyPDF2
и извлекать текст из PDF - 2 способа перевода текста: библиотека python
googletrans
иAWS Translate.
Чтение файлов PDF с помощью Python
Для программного чтения файла PDF можно использовать различные сторонние библиотеки, в этой статье используется библиотека PyPDF2.
PyPDF2 можно установить с помощью диспетчера пакетов pip:
pip install PyPDF2
Чтобы прочитать файл, мы сначала должны открыть файл в режиме двоичного чтения и создать PdfFileReader.
file = open ("example.pdf", 'rb')
reader = PdfFileReader (file)
Извлечь текст из PDF
Теперь вы можете читать PDF-файл по одной странице за раз. Вы можете получить количество страниц в документе, вызвав атрибут numPages
в объекте чтения.Затем переберите все страницы одну за другой и извлеките текст. Чтобы получить содержимое страницы, используйте reader.getPage (<номер страницы>
), а для извлечения текста из содержимого страницы используйте метод extractText
.
num_pages = reader.numPages для p в диапазоне (num_pages):
page = reader.getPage (p)
text = page.extractText ()
После извлечения текста его можно перевести. Мне было любопытно сравнить библиотеку Python googletrans
, которая использует Google Translate, с переводчиком AWS.Библиотека googletrans
имеет открытый исходный код, и за ее использование не взимается дополнительная плата. AWS Translate использует алгоритмы нейронного машинного обучения для перевода и учитывает контекст при переводе. Чтобы использовать AWS Translate, у вас должна быть учетная запись AWS. Они предлагают бесплатный уровень на первые 12 месяцев, и за это время вы можете перевести 2 миллиона символов. После этого применяется ценообразование с оплатой по мере использования, а стоимость составляет 15 долларов за миллион символов. Обратите внимание, что уровень бесплатного пользования активируется при первом использовании услуги.
Перевести текст с помощью Google Translate API
Вы можете установить эту библиотеку с помощью pip:
pip install googletrans
За кулисами эта библиотека использует Google Translate Ajax API для вызова метода перевода. Вы также можете указать URL-адрес домена службы Google. В приведенном ниже примере я объявляю список из двух разных сервисных доменов: translate.google.com,
и translate.google.lv.
Вам необходимо создать экземпляр клиента переводчика, а затем вызвать метод translate
для перевода текста.По умолчанию язык назначения — английский. Его можно изменить, указав параметр dest
в методе translate
. Исходный язык по умолчанию определяется автоматически, но вы можете специально определить исходный язык с помощью параметра src
. В примере, скопированном ниже, он автоматически определяет исходный язык и переводит на латышский.
из googletrans import TranslatorURL_COM = 'translate.google.com'
URL_LV = 'translate.google.lv '
LANG = "lv" translator = Translator (service_urls = [URL_COM, URL_LV])
translation = translator.translate (text, dest = LANG)
Перевести текст с помощью Amazon AWS Translate
Вам необходимо иметь учетную запись AWS для использования AWS Translate. Обратите внимание, что если вы программно используете сервисы AWS с помощью python, то самый простой способ сделать это — использовать python SDK, предоставляемый AWS, который называется boto3
. AWS работает так: он отправляет вызов HTTP API в конечную точку AWS Translate в выбранном регионе.Этот запрос подписывается криптографически с использованием вашего ключа доступа, секретного ключа доступа и текущей метки времени. Вам необходимо настроить aws_access_key_id,
и aws_secret_access_key.
Он использует так называемый протокол AWS Signature Version 4 для подписи вашего запроса. Часы на вашем ноутбуке должны быть правильными, поскольку этот протокол учитывает текущее время. Он будет включать временную метку при подписании вашего запроса, и запрос, который вы отправляете в AWS, действителен только в течение 15 минут.Если он будет получен через 15 минут, AWS отклонит запрос по соображениям безопасности.
Чтобы установить AWS Python boto3
SDK:
pip install boto3
Как уже упоминалось выше, AWS предлагает бесплатный уровень для пробного использования AWS Translate в течение 12 месяцев, что дает вам 2 миллиона символов бесплатно для перевода. После этого это 15 долларов за 1 миллион символов. Обратите внимание, что AWS также считает пробелы как символы.
Для перевода сначала создаем клиента для сервиса перевода
и указываем регион.Затем вызовите метод translate_text
для клиентского объекта, предоставив параметр Text
, который представляет собой текст, который вы хотите перевести. SourceLanguageCode
позволяет указать исходный язык. Если используется значение auto
, то исходный язык будет определен автоматически. TargetLanguageCode
позволяет указать целевой язык. После того, как вы получили результат обратно от AWS, есть дополнительный шаг для получения переведенного текста, а именно вызов результата .get (‘TranslatedText’).
import boto3LANG = "lv"
AWS_REGION = 'eu-west-1'translate = boto3.client (service_name =' translate ',
region_name = AWS_REGION,
use_ssl = True) result = translate.translate_text (Text = page .extractText (),
SourceLanguageCode = "auto",
TargetLanguageCode = LANG)
translation = result.get ('TranslatedText')
Спасибо, что нашли время прочитать. Надеюсь, эта статья оказалась для вас полезной. Вы узнали, как читать PDF-файл с помощью Python и как извлекать текст из PDF-файлов.Затем вы рассмотрели два разных способа автоматического перевода этого текста.
Обратите внимание на часть 2, в которой будет рассказано, как сохранить переведенный текст в новый файл PDF с помощью библиотеки python reportlab
. Он также перейдет к форматированию и сохранению вновь созданного файла.
Полный код проекта смотрите на GitHub: https://github.com/akapne01/translator
Как перевести файл PDF на другой язык
Вы когда-нибудь сталкивались с руководством по эксплуатации устройства, которое, казалось, было доступно только на китайском языке? В таком случае можно почувствовать себя застрявшим в затруднительном положении и потерять идеи, как что-то сделать.Точно так же, если вы имеете дело с клиентами в международном масштабе, вам может быть немного неудобно попросить их прислать документацию на английском языке после того, как она переведена с их родного языка.
В любом случае работа с большинством таких документов может означать, что вы будете отправлять или получать файлы PDF, которые потребуют перевода с одного языка на другой; поскольку PDF обычно используется для официальной документации, такой как инструкции по эксплуатации, проектные предложения, профили компаний и т. д.Ниже приведен простой совет, который поможет вам легко перевести файл PDF практически на любой из основных языков мира.
Загрузка и перевод документов с помощью Google Translate
1. Да, перевести PDF онлайн так просто! Все, что вам нужно сделать, это перейти в Google Translate, нажать «Перевести документ» . Этот метод можно использовать для перевода PDF-файлов и других типов файлов, поскольку Google Translate, естественно, намного больше, чем просто PDF-переводчик.
2.На следующем шаге загрузите файл PDF для перевода документа.
3. Теперь выберите язык для перевода документа, щелкнув стрелку рядом с кнопкой «Перевести». Наконец, нажмите «Перевести», чтобы перевести документ. используя множество языков, вы можете не только переводить PDF на английский или PDF с английского на другие языки, но также выбирать неанглийские файлы PDF для перевода их между разными языками.
4. Откроется новая страница с вашим файлом перевода.