Công nghệ nhận dạng chữ in (Optical Character Recognition – OCR) là công nghệ cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh…) thành tài liệu có thể biên tập được (file text, file Word…).
Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách, báo, tờ rơi quảng cáo, hợp đồng v.v… máy quét chỉ có thể giúp bạn biến những tài liệu giấy này thành tài liệu dạng ảnh. Với các tài liệu dạng ảnh, bạn chỉ có thể đọc mà không thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này.
Với việc sử dụng phần mềm nhận dạng chữ in, bài toán tìm kiếm toàn văn, trích dẫn, biên soạn lại các tài liệu dạng ảnh sẽ được thực hiện rất đơn giản.

Một số thiết bị nhận dạng đánh dấu truyền thống dựa vào nguyên lý phản xạ ánh sáng (tại các vùng có đánh dấu/tô, ánh sáng sẽ phản xạ yếu hơn các vùng trống khác), với các thiết bị này, yêu cầu về việc đánh dấu, tạo mẫu, cũng như yêu cầu về chất liệu giấy in rất khắt khe.
Ngược với các thiết bị đánh dấu truyền thống, các phần mềm nhận dạng đánh dấu (Optical Mark Recognition – OMR) cho phép người dùng tự tạo các mẫu cũng như in chúng trên các chất liệu giấy thông thường. Phần mềm chỉ cần làm việc với ảnh quét của mẫu sau khi điền.
Về mặt công nghệ, OMR đơn giản hơn rất nhiều so với công nghệ OCR hay ICR. Công nghệ OMR thường được dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.

Công nghệ nhận dạng chữ viết tay hay còn gọi là công nghệ nhận dạng ký tự thông minh (Intelligent Character Recognition – ICR) là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay.
Công nghệ nhận dạng chữ viết tay thường được sử dụng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký v.v…).

ADRT (Adaptive Document Recognition Technology) là một bước tiến lớn trong công nghệ nhận dạng tài liệu; là một phần quan trọng và chỉ có trong công nghệ OCR của ABBYY. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh, số trang v.v…
Khi kết quả nhận dạng được lưu dưới dạng Microsoft Word, các định dạng trên được nhìn nhận như những đối tượng tương ứng trong Word chứ không đơn thuần chỉ là các khối văn bản.
Để đạt được tính chính xác trong việc phân tích dàn trang, cấu trúc logic cũng như các định dạng trong tài liệu là do ADRT xem xét và xử lý các tài liệu nhiều trang như là một đối tượng tổng thể chứ không phải là tập hợp các trang riêng biệt. Với công nghệ ADRT, người dùng sẽ không mất, hoặc mất rất ít thời gian cho việc biên tập lại kết quả nhận dạng.

Hỗ trợ hơn 200 ngôn ngữ nhận dạng trong tất cả các kết hợp. Hỗ trợ từ điển có sẵn cho 63 ngôn ngữ được đánh dấu bằng
ICR có sẵn cho 130 ngôn ngữ được đánh dấu bằng :
Quét đơn giản: Lưu bất kỳ kiểu quét nào – ngay cả từ máy quét chi phí rất thấp hoặc máy in tất cả trong một có khả năng chụp ảnh – vào một thư mục mạng chuyên dụng. Sau khi bạn định cấu hình M-Files để nhập các tệp mới này từ thư mục nguồn này, phần mềm quản lý tệp sẽ nhắc bạn gán thông tin siêu dữ liệu. Mặc dù nội dung tài liệu không thể tìm kiếm được, nhưng phần đính kèm siêu dữ liệu của bạn vào tài liệu sẽ liên kết tệp với các danh mục tổ chức thích hợp.
Quét OCR của bên thứ ba: M-Files hỗ trợ bất kỳ loại phần mềm hình ảnh OCR nào. Phần mềm này thường đi kèm với phần cứng quét. Ví dụ, các thiết bị dòng MFP của Hewlett-Packard sử dụng Phần mềm Gửi Kỹ thuật số HP (DSS). Trên hệ thống cụ thể này, cũng có thể nhập siêu dữ liệu M-Files thông qua màn hình cảm ứng của thiết bị, được lưu dưới dạng XML. Sau đó, cả tệp được quét và siêu dữ liệu đều được gửi đến phần mềm DSS, phần mềm này sẽ thực hiện nhận dạng ký tự quang học trên văn bản tài liệu.
Tiện ích bổ sung OCR M-Files: Giờ đây, bạn có thể có được sự tiện lợi của các tệp PDF có thể tìm kiếm bằng phương pháp quét đơn giản thông qua tiện ích bổ sung OCR M-Files. Dựa trên công nghệ I.R.I.S., mô-đun M-Files OCR giao tiếp trực tiếp với hầu hết mọi máy quét. M-Files OCR cũng vượt xa các tệp PDF có thể tìm kiếm; nó cũng cung cấp tính năng quét dựa trên ID để tự động hóa các tác vụ như đặt tên tệp, định nghĩa thuộc tính và siêu dữ liệu, khởi tạo quy trình công việc và nhận dạng chữ ký.

Hợp lý hóa quy trình phê duyệt tài liệu và ký kỹ thuật số với DocuSign. Công cụ quy trình làm việc của M-Files tích hợp hoàn toàn với DocuSign và hỗ trợ các mẫu tài liệu được điền sẵn và tự động gán tài liệu cho người ký.
Ký thỏa thuận với người dùng bên ngoài: Tích hợp DocuSign cho M-Files giúp tăng tốc đáng kể việc thu thập chữ ký cho các tài liệu như thỏa thuận không tiết lộ. Soạn tài liệu trong M-Files và chuyển nó sang trạng thái “Đã gửi để ký” trong quy trình làm việc. Tài liệu tự động được tải lên DocuSign và tất cả những người ký nhận đều nhận được chỉ định qua email để ký tài liệu. Khi tất cả những người ký đã ký vào tài liệu, M-Files sẽ tải tài liệu đã ký từ DocuSign xuống kho M-Files.