WikiSort.ru - Компьютерные программы

ПОИСК ПО САЙТУ | о проекте
CuneiForm
Тип оптическое распознавание символов
Автор Cognitive Technologies
Разработчики команда CuneiForm-Linux
Написана на C, C++
Интерфейс командная строка
Операционная система Linux, Mac OS X и др. UNIX-подобные
Первый выпуск 1996
Последняя версия 1.1.0 (19 апреля 2011[1])
Состояние активное
Лицензия BSD-подобная лицензия Cognitive Technologies[2]
Сайт launchpad.net/cuneiform-…

CuneiForm (англ. cuneiform, кьюниформ — клинопись), Cognitive OpenOCR — свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

OCR CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт в 1993 году. Система поставлялась с наиболее популярными моделями сканеров, МФУ и ПО в России и мире: Corel Draw, Hewlet-Pachard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti и др. В 2008 году Cognitive Technologies открыла исходные коды OCR CuneiForm.

Особенности

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

Кроме того, поддерживается смесь русского и английского языка. Распознавание смесей других языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году[3]. Обучение другим языкам затруднительно в виду связи каждого языка с dat-файлом, структура и способ получения каковых разработчиками не раскрывались.

История

1993 год — Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).[4]

1994 год — Заключен контракт с Hewlett-Packard по комплектации сканеров, поставляемых в Россию OCR CuneiForm. Это первый контракт HP с российским разработчиком ПО.[5][6][7][8]

1995 год — Заключен контракт с японской корпорацией Epson о комплектации сканеров OCR CuneiForm.[9] Подписан OEM-контракт с крупнейшим мировым производителем факсимильных аппаратов, лазерных принтеров, сканеров и другого офисного оборудования — Brother Corporation. Согласно договору новый роликовый сканер Brother IC-150 будет комплектоваться программным обеспечением Cognitive для сканирования, распознавания по всему миру.

1996 год — Подписан ОЕМ-контракт с одним из крупнейших мировых производителей мониторов, факсимильных аппаратов, лазерных принтеров, многофункциональных устройств и другого офисного оборудования — Samsung Information Systems America.[10]Согласно договору новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A будет продаваться в комплекте с системой оптического распознавания символов Cognitive Cuneiform LE по всему миру.

  • Подписан ОЕМ-контракт с ведущим мировым производителем офисного оборудования компанией Xerox о комплектации многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
  • Выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.

Адаптивное распознавание — метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность бесшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.

1997 год — В системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

  • Подписан новый ОЕМ-контракт с компанией Canon на комплектацию многофункциональных устройств, поставляемых в Россию, системой CuneiForm;[11][12]
  • Подписан новый ОЕМ-контракт с компанией OKI Europe Limited на комплектацию многофункциональных устройств OKI FAX 4100 и OKI FAX 5200, поставляемых в Россию, системой CuneiForm;[13]
  • Выход первой в мире OCR-системы CuneiForm MMX Update для процессора Intel-MMX;[14]
  • Сканеры NeuHaus комплектуются системой распознавания CuneiForm;
  • Выход первой в России системы сетевого сканирования CuneiForm 98 NeST.

1999 год

  • Подписан новый ОЕМ-контракт с компанией Olivetti на комплектацию многофункциональных устройств поставляемых в Россию системой CuneiForm;
  • Заключено дистрибуторское соглашение с ведущим европейским дистрибутором ПО компанией WSKA (Франция) на распространение OCR Cuneiform Direct в Европе;
  • Вышла новая версия системы распознавания CuneiForm 2000 в которой реализован метод "Когнитивного анализаТМ: внутрь ядра распознавания встроена экспертная система, которая позволяет проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма распознавания, и выбирать оптимальный вариант.
  • Разработан метод «Меридианной сегментации таблиц» для повышения точности воссоздания исходной формы таблицы в выходном документе;
  • Разработан механизм воссоздания формы исходного документа «What you scan is what you get». Дело в том, что до настоящего времени пользователи систем распознавания тратили достаточное количество времени (которое часто превышало время самого сканирования и распознавания) для придания документу его исходной формы, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т. д.

2001 год — Подписан OEM-контракт о комплектации оборудования, производимого компанией Canon (сканеры, многофункциональные устройства), программным обеспечением Cognitive Technologies (OCR CuneiForm) на территории стран Восточной Европы.

12 декабря 2007 года была выпущена freeware-версия OCR CuneiForm и анонсировано открытие её исходных текстов[15].[16][17]

2 апреля 2008 года были опубликованы исходные тексты OCR Cuneiform под лицензией BSD[18], а осенью — исходные тексты интерфейса системы[19].

Последняя версия OpenSource версии для Windows не обновлялась с февраля 2009.

В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 — Cuneiform-Qt[20], YAGF. Начиная с версии 0.9.0[21] открытую версию для Linux можно использовать в качестве библиотеки.

Графические интерфейсы для CuneiForm

См. также

Примечания

  1. Порт Cuneiform для Linux.
  2. Текст лицензии. Архивировано 19 марта 2012 года.
  3. ~anb-symmetrica/cuneiform-linux/cuneiform-multilang : revision 400
  4. Сделано в России (недоступная ссылка). Проверено 6 декабря 2016. Архивировано 27 июня 2013 года.
  5. «Законные» сканеры HP научатся читать по-русски, Коммерсант, 01.09.1994
  6. Cканеры HP под флагом CuneiForm
  7. Hewlett-Packard presents new products in Moscow, Algonet
  8. HP и Cognitive углубляют партнерство, PCweek
  9. Мир ПК. Жемчужины российского ПО
  10. Samsung выбрал OCR фирмы Cognitive Technology для комплектации многофункциональных устройств, PCweek, 10.09.1996
  11. Владимир Митин Многофункциональные аппараты Canon обрели новое качество,PCweek, 12.05.1998
  12. Владимир Митин Альянс компаний Canon — Cognitive Technologies развивается успешно, PCweek, 29.02.2000
  13. Cognitive Technologies и OKI жмут на газ, PCweek
  14. Неформальный маркетинг HP, Computer World
  15. OCR CuneiForm — первый промышленный Open Source проект в области распознавания Архивировано 25 мая 2011 года.
  16. Российская система распознавания текстов CuneiForm станет открытойСybersecurity, 06.12.2007
  17. CuneiForm возвращается, Computerworld, 24.12.2007
  18. Cognitive Technologies открыла код OCR Cuneiform (недоступная ссылка)
  19. Cognitive Technologies открыла код OCR Cuneiform Архивировано 19 апреля 2011 года.
  20. Cuneiform-Qt
  21. Cuneiform Linux 0.9.0 is released

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии