Бесплатная программа для извлечения текста из PDF файла

Файлы офисный программ, например DOCX, которые использует редактор Word могут выглядеть по-разному в зависимости от редактора текста, в котором они были открыты. Но этого никогда не случается с PDF-файлами, которые благодаря особенностям своего устройства и формата всегда выглядят одинаково, независимо от программы, в которой файл был открыт. Но это является причиной того, что данные файлы сложно редактировать и даже не всегда возможно извлечь из них текст. Файлы PDF это что-то среднее между текстом и картинкой.

Не всегда возможно извлечь текст из PDF

В зависимости от способов создания PDF, в документе может присутствовать или отсутствовать текстовый слой. Пример PDF файла без текстового слоя: отсканированная книга сохранена в виде изображений и из этих изображений страниц без распознавания текста составлена PDF книга. В этом случае ни одна программа, кроме ABBYY FineReader, которая может распознавать текст (OCR), не сможет полноценно конвертировать PDF файл.

Если же файл сделан с помощью офисных программ, то они добавляют поверх изображения ещё и текстовый слой. В зависимости от того, что вам нужно, вы можете извлечь этот текстовый слой без форматирования и сохранить в файл с простым текстом (.txt), либо вы можете извлечь его с форматированием — но даже в этом случае полученный документ может выглядеть не так, как в PDF.

Если вы хотите извлечь текст с форматированием, то смотрите статью «Как конвертировать PDF в документ Microsoft Word». Данная статья расскажет, как скопировать текст из PDF без необходимости сохранения форматирования.

Если вам нужно скопировать из PDF файла несколько абзацев или несколько страниц, то это можно сделать практически в любой программе, которая умеет открывать PDF файлы (даже в веб-браузерах), но при условии, конечно, что в файле есть текстовый слой.

Но что делать, если нужно сохранить текст из всего PDF файла? Из бесплатных программ такое может Foxit Reader.

Как извлечь текст из PDF файла в Foxit Reader

Foxit Reader — это бесплатная программа для просмотра PDF файлов. Вы можете скачать её с официального сайта: https://www.foxitsoftware.com/ru/pdf-reader/

Также там имеется платный вариант, но если вам нужно извлечь только текст из PDF, то хватит и бесплатной версии.

Foxit Reader является кроссплатформенной программой, там же вы можете скачать официальную версию для Linux.

Установите Foxit Reader и откройте в этой программе PDF.

В меню кликните «Файл» → «Сохранить как» и выберите место для сохранения текстового документа.

В качестве «Типа файла» выберите «TXT-файлы (*.txt)» и нажмите кнопку «Сохранить».

В созданном файле форматирование и картинки будут потеряны. Более того, абзацы могут быть разбиты на строки — это особенности хранения текста в PDF и ничего с этим поделать нельзя.

Как выделить и скопировать текст в Foxit Reader

Если вы не можете выделить текст в Foxit Reader, то в меню программы нажмите кнопку «Выбрать», после этого вы сможете выделять и копировать фрагменты текста.

Для возвращения в режим по умолчанию, выберите инструмент «Рука».


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

wp-puzzle.com logo