Công nghệ

Công nghệ nhận dạng chữ in OCR

Công nghệ nhận dạng chữ in (Optical Character Recognition – OCR) là công nghệ cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh…) thành tài liệu có thể biên tập được (file text, file Word…).

Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách, báo, tờ rơi quảng cáo, hợp đồng v.v… máy quét chỉ có thể giúp bạn biến những tài liệu giấy này thành tài liệu dạng ảnh. Với các tài liệu dạng ảnh, bạn chỉ có thể đọc mà không thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này.

Với việc sử dụng phần mềm nhận dạng chữ in, bài toán tìm kiếm toàn văn, trích dẫn, biên soạn lại các tài liệu dạng ảnh sẽ được thực hiện rất đơn giản.

Công nghệ nhận dạng đánh dấu OMR

Một số thiết bị nhận dạng đánh dấu truyền thống dựa vào nguyên lý phản xạ ánh sáng (tại các vùng có đánh dấu/tô, ánh sáng sẽ phản xạ yếu hơn các vùng trống khác), với các thiết bị này, yêu cầu về việc đánh dấu, tạo mẫu, cũng như yêu cầu về chất liệu giấy in rất khắt khe.

Ngược với các thiết bị đánh dấu truyền thống, các phần mềm nhận dạng đánh dấu (Optical Mark Recognition – OMR) cho phép người dùng tự tạo các mẫu cũng như in chúng trên các chất liệu giấy thông thường. Phần mềm chỉ cần làm việc với ảnh quét của mẫu sau khi điền.

Về mặt công nghệ, OMR đơn giản hơn rất nhiều so với công nghệ OCR hay ICR. Công nghệ OMR thường được dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.

Công nghệ nhận dạng chữ viết tay ICR

Công nghệ nhận dạng chữ viết tay hay còn gọi là công nghệ nhận dạng ký tự thông minh (Intelligent Character Recognition – ICR) là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay.

Công nghệ nhận dạng chữ viết tay thường được sử dụng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký v.v…).

Công nghệ nhận dạng văn bản ADRT

ADRT (Adaptive Document Recognition Technology) là một bước tiến lớn trong công nghệ nhận dạng tài liệu; là một phần quan trọng và chỉ có trong công nghệ OCR của ABBYY. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh, số trang v.v…

Khi kết quả nhận dạng được lưu dưới dạng Microsoft Word, các định dạng trên được nhìn nhận như những đối tượng tương ứng trong Word chứ không đơn thuần chỉ là các khối văn bản.

Để đạt được tính chính xác trong việc phân tích dàn trang, cấu trúc logic cũng như các định dạng trong tài liệu là do ADRT xem xét và xử lý các tài liệu nhiều trang như là một đối tượng tổng thể chứ không phải là tập hợp các trang riêng biệt. Với công nghệ ADRT, người dùng sẽ không mất, hoặc mất rất ít thời gian cho việc biên tập lại kết quả nhận dạng.

Ngôn ngữ được hỗ trợ

Hỗ trợ hơn 200 ngôn ngữ nhận dạng trong tất cả các kết hợp. Hỗ trợ từ điển có sẵn cho 63 ngôn ngữ được đánh dấu bằng
ICR có sẵn cho 130 ngôn ngữ được đánh dấu bằng :

Abkhaz

Adyghe

Afrikaans

Agul

Albanian

Altai

Arabic (Saudi Arabia)

Armenian (Eastern)

Armenian (Grabar)

Armenian (Western)

Avar

Aymara

Azeri (Cyrillic)

Azeri (Latin)

Bashkir

Basque

Belarusian

Bemba

Blackfoot

Breton

Bugotu

Bulgarian

Burmese

Buryat

Catalan

Cebuano

Chamorro

Chechen

Chinese Simplified

Chinese Traditional

Chukchee

Chuvash

Corsican

Crimean Tatar

Croatian

Crow

Czech

Danish

Dargwa

Dungan

Dutch (Netherlands)

Dutch (Belgian)

English

Eskimo (Cyrillic)

Eskimo (Latin)

Esperanto

Estonian

Even

Evenki

Faroese

Farsi

Fijian

Finnish

French

Frisian

Friulian

Gagauz

Galician

Ganda

Georgian

German

German (Luxembourg)

German (new spelling)

Greek

Guarani

Hani

Hausa

Hawaiian

Hebrew

Hungarian

Icelandic

Ido

Indonesian

Ingush

Interlingua

Irish

Italian

Japanese

Japanese (modern)

Jingpo

Kabardian

Kalmyk

Karachay-Balkar

Karakalpak

Kashubian

Kawa

Kazakh

Khakass

Khanty

Kikuyu

Kirghiz

Kongo

Korean

Korean (Hangul)

Koryak

Kpelle

Kumyk

Kurdish

Lak

Latin

Latvian

Latvian Gothic

Lezgin

Lithuanian

Luba

Macedonian

Malagasy

Malay (Malaysian)

Malinke

Maltese

Mansi

Maori

Mari

Maya

Miao

Minangkabau

Mohawk

Mongol

Mordvin

Nahuatl

Nenets

Nivkh

Nogay

Norwegian (Bokmal)

Norwegian (Nynorsk)

Nyanja

Occidental

Occitan

Ojibway

Old English

Old French

Old German

Old Italian

Old Slavonic

Old Spanish

Ossetian

Papiamento

Pinyin

Polish

Portuguese

Portuguese (Brazil)

Quechua (Bolivia)

Rhaeto-Romanic

Romanian

Romanian (Moldavia)

Romany

Rundi

Russian

Russian (old spelling)

Russian with accent

Rwanda

Sami (Lappish)

Samoan

Scottish Gaelic

Selkup

Serbian (Cyrillic)

Serbian (Latin)

Shona

Slovak

Slovenian

Somali

Sorbian

Sotho

Spanish

Sunda

Swahili

Swazi

Swedish

Tabassaran

Tagalog

Tahitian

Tajik

Tatar

Thai

Tok Pisin

Tongan

Tswana

Tun

Turkish

Turkmen (Cyrillic)

Turkmen (Latin)

Tuvinian

Udmurt

Uighur (Cyrillic)

Uighur (Latin)

Ukrainian

Uzbek (Cyrillic)

Uzbek (Latin)

Vietnamese

Welsh

Wolof

Xhosa

Yakut

Yiddish

Zapotec

Zulu

Công nghệ quét và chụp

Quét đơn giản: Lưu bất kỳ kiểu quét nào – ngay cả từ máy quét chi phí rất thấp hoặc máy in tất cả trong một có khả năng chụp ảnh – vào một thư mục mạng chuyên dụng. Sau khi bạn định cấu hình M-Files để nhập các tệp mới này từ thư mục nguồn này, phần mềm quản lý tệp sẽ nhắc bạn gán thông tin siêu dữ liệu. Mặc dù nội dung tài liệu không thể tìm kiếm được, nhưng phần đính kèm siêu dữ liệu của bạn vào tài liệu sẽ liên kết tệp với các danh mục tổ chức thích hợp.

Quét OCR của bên thứ ba: M-Files hỗ trợ bất kỳ loại phần mềm hình ảnh OCR nào. Phần mềm này thường đi kèm với phần cứng quét. Ví dụ, các thiết bị dòng MFP của Hewlett-Packard sử dụng Phần mềm Gửi Kỹ thuật số HP (DSS). Trên hệ thống cụ thể này, cũng có thể nhập siêu dữ liệu M-Files thông qua màn hình cảm ứng của thiết bị, được lưu dưới dạng XML. Sau đó, cả tệp được quét và siêu dữ liệu đều được gửi đến phần mềm DSS, phần mềm này sẽ thực hiện nhận dạng ký tự quang học trên văn bản tài liệu.

Tiện ích bổ sung OCR M-Files: Giờ đây, bạn có thể có được sự tiện lợi của các tệp PDF có thể tìm kiếm bằng phương pháp quét đơn giản thông qua tiện ích bổ sung OCR M-Files. Dựa trên công nghệ I.R.I.S., mô-đun M-Files OCR giao tiếp trực tiếp với hầu hết mọi máy quét. M-Files OCR cũng vượt xa các tệp PDF có thể tìm kiếm; nó cũng cung cấp tính năng quét dựa trên ID để tự động hóa các tác vụ như đặt tên tệp, định nghĩa thuộc tính và siêu dữ liệu, khởi tạo quy trình công việc và nhận dạng chữ ký.

Công nghệ tìm kiếm dtSearch

Phê duyệt tài liệu và chữ ký số

Hợp lý hóa quy trình phê duyệt tài liệu và ký kỹ thuật số với DocuSign. Công cụ quy trình làm việc của M-Files tích hợp hoàn toàn với DocuSign và hỗ trợ các mẫu tài liệu được điền sẵn và tự động gán tài liệu cho người ký.

Ký thỏa thuận với người dùng bên ngoài: Tích hợp DocuSign cho M-Files giúp tăng tốc đáng kể việc thu thập chữ ký cho các tài liệu như thỏa thuận không tiết lộ. Soạn tài liệu trong M-Files và chuyển nó sang trạng thái “Đã gửi để ký” trong quy trình làm việc. Tài liệu tự động được tải lên DocuSign và tất cả những người ký nhận đều nhận được chỉ định qua email để ký tài liệu. Khi tất cả những người ký đã ký vào tài liệu, M-Files sẽ tải tài liệu đã ký từ DocuSign xuống kho M-Files.