Распознавание текста по фотографии

Google

В Google можно распознавать неограниченное количество картинок, лишь бы они поместились на Google Drive. Нужно просто открыть картинку с Google диска с помощью Google Документов, и она автоматически распознается.

Входные форматыPDF , JPEG, PNG, GIF
Выходные форматыWord, Open Document, RTF, Adobe PDF, HTML, Text Plain, Epub (но форматирование исчезает – нарушается компоновка картинок с текстом)
Размер файлаДо 2 Мб
ОграниченияОграничено только размером хранилищ Google.

Качество исходника рекоменовано не меньше 10 пикселей по высоте для строки.

КачествоТак себе – качество распознавания свидетельства инн хуже, чем с Finereader. И ФИО, и номер инн полностью потеряны.

Как пользоваться

У вас должен быть Google-аккаунт для пользования сервисом, если есть почта gmail – подойдет аккаунт от нее.

  1. Загрузите файл на страницу drive.google.com или выберите там уже загруженную картинку
  2. Нажмите правой кнопкой мыши на нужный файл.
  3. Выберите “Открыть с помощью” –> “Google Документы”.
  4. Картинка преобразуется в документ Google и откроется на вкладке https://docs.google.com

Распознавание текста онлайн без регистрации

Online OCR

Online OCR http://www.onlineocr.net/ – единственный наряду с Abbyy Finereader сервис, который позволяет сохранять в выходном формате картинки вместе с текстом. Вот как выглядит распознанный вариант с выходным форматом Word:

Результат распознавания в Online OCR (ФИО и дата распознаны, но стерты вручную)

Входные форматыPDF, TIF, JPEG, BMP, PCX, PNG, GIF
Выходные форматыWord, Excel, Adobe PDF, Text Plain
Размер файлаДо 5Мб без регистрации и до 100Мб с ней
ОграниченияРаспознает не более 15 картинок в час без регистрации
КачествоКачество распознавания свидетельства инн оказалось хорошее. Примерно как у Abbyy Finereader – какие-то части документа лучше распознались тем сервисом, а какие-то – этим.
  1. Загрузите файл (щелкните «Select File»)
  2. Выберите язык и выходной формат
  3. Введите и щелкните «Convert»

Внизу появится ссылка на выходной файл (текст с картинками) и окно с текстовым содержимым

Free Online OCR

Free Online OCR https://www.newocr.com/ позволяет выделить часть изображения. Выдает результат в текстовом формате (картинки не сохраняются).

Входные форматыPDF, DjVu JPEG, PNG, GIF, BMP, TIFF
Выходные форматыText Plain (PDF и Word тоже можно загрузить, но внутри них все равно текст без форматирования и картинок).
Размер файлаДо 5Мб без регистрации и до 100Мб с ней
ОграниченияОграничения на количество нет
КачествоКачество распознавания свидетельства инн плохое.

Можно распознавать как все целиком, так и выделить часть изображения для распознавания.

Как пользоваться

  1. Выберите файл или вставьте url файла и щелкните «Preview» – картинка загрузится и появится в окне браузера Не забудьте правильно указать язык.
  2. Выберите область сканирования (можно оставить целиком как есть)
  3. Выберите языки, на которых написан текст на картинке и щелкните кнопку «OCR»
  4. Внизу появится окно с текстом

OCR Convert

OCR Convert http://www.ocrconvert.com/ txt

Входные форматыМногостраничные PDF, JPG, PNG, BMP, GIF, TIFF
Выходные форматыText Plain
Размер файлаДо 5Мб общий размер файлов за один раз.
ОграниченияОдновременно до 5 файлов. Сколько угодно раз.
КачествоКачество распознавания свидетельства инн среднее. (ФИО распознано частично). Лучше, чем Google, хуже, чем Finereader
      1. Загрузите файл, выберите язык и щелкните кнопку «Process»

      1. Появится ссылка на файл с распознанным текстом

Free OCR

Free OCR www.free-ocr.com распознал документ хуже всех.

Входные форматыPDF, JPG, PNG, BMP, GIF, TIFF
Выходные форматыText Plain
Размер файлаДо 6Мб
ОграниченияУ PDF-файла распознается только первая страница
КачествоКачество распознавания свидетельства инн низкое – правильно распознано только три слова.
      1. Выберите файл
      2. Выберите языки на картинке
      3. Щелкните кнопку “Start”

I2OCR

I2OCR http://www.i2ocr.com/ неплохой сервис со средним качеством выходного файла. Отличается приятным дизайном, отсутствием ограничений на количество распознаваемых картинок. Но временами зависает.

Входные форматыJPG, PNG, BMP, TIF, PBM, PGM, PPM
Выходные форматыText Plain (PDF и Word тоже можно загрузить, но внутри них все равно текст без форматирования и картинок).
Размер файлаДо 10Мб
Ограничениянет
КачествоКачество распознавания свидетельства инн среднее – сравнимо с OCR Convert.

Замечено, что сервис временами не работает.

  1. Выберите язык
  2. Загрузите файл
  3. Введите
  4. Щелкните кнопку «Extract text»
  5. По кнопке «Download» можно загрузить выходной файл в нужном формате

Яндекс OCR

Недавно обнаружила этот сервис, и он мне очень понравился качеством и простотой использования. Вообще то он предназначен для перевода загруженной картинки, но его можно использоваться и для распознавания текста с картинки. Регистрации не требует, ограничений на количество изображений нет. В данный момент находится в стадии бета-тестирования.

Просто перейдите на https://translate.yandex.ru/ocr, загрузите картинку (можно перетащить) и щелкните “Открыть в Переводчике”. Откроется как текст с картинки, так и перевод в правом поле.

Перетащите картинку

Результат распознавания

Convertio

Convertio hhttps://convertio.co/ru/ocr/ работает своеобразно, поэтому сравнивать его тяжело. В целом не понравился. Свидетельство ИНН, загруженное целиком, он не распознал совсем, так как плохо выделяет текст среди картинок. Не распозналось ни одного слова! Для его проверки я вырезала текстовый кусочек из ИНН и распознала его – это удалось сделать.

К тому же временами он зависает в попытках что-либо распознать.

Входные форматыpdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp, webp
Выходные форматыText Plain, PDF, Word , Excel, Pptx, Djvu, Epub, Fb2, Csv
Размер файла?, зависит от тарифа
Ограничения10 страниц бесплатно, дальше тарифы от 7 долларов.
КачествоСложно оценить – файл с картинками (ИНН) не распознал совсем, отдельно вырезанный кусок текста распознал.

Замечено, что при распознавании сервис временами зависает, возможно ваши картинки ставятся в большую очередь на бесплатном тарифе.

  1. Загрузите файл
  2. Выберите язык
  3. Выберите выходной формат
  4. Введите
  5. Щелкните “Преобразовать”
  6. Чтобы увидеть результат, промотайте наверх к форме загрузки файлов. Там же можно будет и скачать результат.

Интерфейс Convertio

Вырезанный и распознанный кусок (целиком не распознается):

Результат работы Convertio

Лучше всего документ распознал Abbyy Finereader и Online OCR. Кроме того, эти сервисы сохраняют форматирование файла: где нет текста, оставляют картинки и компонуют их с распознанным текстом. Из новых сервисов хорош Яндекс OCR.

Хуже всего сработал Free OCR – он распознал всего три слова.

Распознаем текст онлайн с картинок, отсканированных документов бесплатно и без регистрации

Приветствую вас, дорогие читатели блога. Сегодня я хочу рассказать вам о некоторых сервисах, которые давно у меня лежат в закладках. Речь пойдет о сервисах распознавания текста онлайн.

Наверное, у каждого был случай, когда вы хотели переписать какой-то текст с картинки или PDF файла. Это могли быть какие-то документы или просто красивая цитата. У меня таких случаев было немало и меня всегда выручали сервисы распознавания текста. Конечно, существуют и программы для этой цели, но я предпочитаю такие простые задачи делать онлайн.

Ниже вы можете увидеть перечень сервисов, благодаря которым распознать текст с изображения проще простого. Все сервисы абсолютно бесплатны и не требуют регистрации.

Принцип сервисов весьма прост. Вы загружаете изображение, содержащее текст, сервис его обрабатывает и выдает вам готовый текст, избавляя вас от его переписывания. Качество распознавания текста с изображения напрямую зависит от качества самого изображения.

Где можно распознать текст с PDF файла, картинки или фотографии бесплатно

Итак, вот список сервисов:

– позволяет распознать текст бесплатно с изображений таких форматов как: JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Сервис поддерживает множество языков. После распознания текста с картинки, его можно скопировать и вставить в свой документ.

— аналогичный предыдущему сервис, с тем лишь отличием, что здесь распознанный текст можно скачать в форматах Microsoft Word (docx), Microsoft Exel (xlsx), Text Plain (txt).

– сервис, поддерживающий форматы jpg, png, bmp, pdf, jpeg, tiff, tif и gif. Языков распознавания чуть меньше чем в предыдущих сервисах, но тоже немало. Скачать распознанный тест можно в txt формате.

– сервис, поддерживающий более 60 языков. Кроме основной функции распознавания текста с изображений, здесь есть такие инструменты как:

  • Конвертация web-страницы в PDF;
  • Преобразование web-страницы в изображение (скриншот);
  • Генератор кнопок CSS3;
  • Международные клавиатуры;
  • Преобразователь формата изображений;

Качество извлечения текста с изображений

Особой разницы в качестве распознавания текста на изображениях между сервисами я не заметил, поэтому в качестве примера покажу лишь первый сервис.

Для примера я взял несколько изображений разного размера и качества изображенного текста.

Изображение 1 (790 X 588 px)

Изображение 2 (793 X 1024 px)

Изображение 3 (600 X 350 px)

И вот результат самого текста, который сервис распознал на картинке.

Результат 1 изображения:

Распознавание текста на изображении онлайн

Главное нужно указать изображение с текстом на вашем компьютере или телефоне, обязательно выбрать основной язык текста и нажать кнопку OK внизу страницы. Остальные настройки уже выставлены по умолчанию.

Пример сфотографированного текста из книги и скриншот распознанного текста на этой фотографии:

В зависимости от размера исходного изображения и количества текста обработка может продлиться около 1 минуты.
Для достижения лучшего результата распознания текста желательно обратить внимание на подсказки возле настроек. Перед обработкой изображение нужно повернуть на нормальный угол, чтобы текст шёл в правильном направлении и небыл перевёрнут вверх ногами, а также желательно обрезать лишние однотонные края без текста, если они есть.
Обе OCR-программы для распознования текста отличаются друг от друга и могут давать разные результаты, что позволяет выбрать наиболее приемлемый вариант из двух.

Исходное изображение никак не изменяется, вам будет предоставлен распознанный текст в обычном текстовом документе в формате .txt с кодировкой utf-8 и после обработки его можно будет открыть прямо в окне браузера или же после скачивания – в любом текстовом редакторе.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *