Số hóa giấy tờ - Giảm bớt áp lực lưu trữ văn bản nhờ OCR

18:04 | 23-04-2020

OCR là gì?

Vậy, câu hỏi đầu tiên, OCR là gì? Optical Character Recognition (viết tắt là OCR) hay còn được biết đến là “Nhận dạng ký tự bằng quang học” là công nghệ được áp dụng để nhận dạng ký tự trên một định dạng hình và trích xuất thông tin trên hình ảnh đó thành văn bản. Trên thực tế, ứng dụng thường gặp nhất của công nghệ này là máy scanner nhiều người đã quen thuộc nơi văn phòng. Nhưng, hiện tại, các máy scan cơ bản chỉ quét được hình ảnh và trả về hình ảnh dạng số hóa. Mặt khác, OCR tuy đã được nghiên cứu và ứng dụng ở nhiều nơi trên thế giới, song, khả năng trích xuất thành văn bản các thứ tiếng khác ngoài tiếng Anh vẫn chưa thật sự hoàn thiện. 


Tại sao phải số hóa tài liệu?

Trước khi OCR được phát triển, các loại máy scan và các thiết bị ghi hình khác được ra mắt với nhiệm vụ chính là giải quyết khó khăn lớn nhất của giới văn phòng, đó chính là chuyển đổi các loại văn bản giấy tờ thành dạng file điện tử có thể lưu trữ dễ dàng trên máy tính. Những lợi ích mà việc lưu trữ số hóa các loại giấy tờ có thể đem đến cho các cơ quan, doanh nghiệp có thể được kể đến như:

  • Truy hồi dữ liệu nhanh chóng: Những người được chia sẻ quyền truy cập và có chung mạng lưới máy tính sẽ có thể truy cập vào kho lưu trữ văn bản dễ dàng, nhanh chóng. Nhân viên không còn mất thời gian đến tận phòng lưu trữ để xem loại văn bản cần tìm.

  • Nhiều không gian hơn: Thay vì tốn cả 1 văn phòng để lưu trữ công văn, tài liệu, giờ đây, những văn bản đó đã có thể được lưu trữ gọn nhẹ trong 1 ổ cứng.  

  • Quản lý tốt hơn: Tạo và sắp xếp các thư mục điện tử sẽ luôn dễ dàng và đạt được hiệu suất cao hơn cách truyền thống. 

  • An toàn hơn: Các dữ liệu điện tử có thể dễ dàng được sao lưu bằng cách copy lại toàn bộ đoạn dữ liệu trong máy tính và lưu trữ nó ở một hoặc nhiều thiết bị có chức năng lưu trữ khác để làm dữ liệu dự phòng. Điều này có thể giúp tránh các trường hợp văn bản mất hoặc bị hư hại. Ngoài ra, dữ liệu này cũng có thể được mã hóa nhằm tăng cường tính bảo mật cho dữ liệu và kiểm soát được người truy cập vào nguồn dữ liệu đó.

  • Chia sẻ dễ dàng hơn: Không còn cảnh phải mang giấy tờ lên từng phòng ban, việc lưu trữ dữ liệu số có thể giúp văn bản được chia sẻ nhanh chóng qua 1 mạng máy tính chung.




Tuy nhiên, với tính năng cơ bản, máy scan chỉ có thể số hóa văn bản dưới định dạng hình ảnh. Với OCR, hình ảnh điện tử này sẽ 1 lần nữa được trích xuất thành văn bản, tiện lợi hơn cho việc chỉnh sửa, sắp xếp và lưu trữ. Nói 1 cách dễ hiểu hơn, đối với máy scan thường khi scan 1 tấm vé máy bay sẽ chỉ trả về cho người dùng hình ảnh điện tử của tấm vé máy bay đó, trong khi OCR sẽ trả về các thông tin quét được như tên chủ vé, mã hiệu chuyến bay, số ghế… dưới dạng text.


OCR hoạt động như thế nào?

Để đi sâu hơn vào cơ chế hoạt động của OCR, khi các trang tài liệu đã được quét, công nghệ OCR sẽ chuyển tệp này về dạng trắng đen. Sau đó, tệp này sẽ được phân tích thành các mảng sáng tối, khi đó, các mảng tối sẽ được xác định là ký tự cần được nhận dạng và mảng trắng sẽ được xác định là phần nền ngoài của văn bản. Các mảng tối này tiếp tục được xử lý sâu hơn để xác định các ký tự chữ hay chữ số. 

OCR có thể có nhiều kỹ thuật phân tích khác nhau nhưng đều thường tập trung xác định một ký tự, từ hoặc cụm từ cùng 1 lúc. Các kí tự này được nhận dạng bằng 1 trong 2 dạng thuật toán sau:

  1. Pattern recognition (nhận dạng mẫu): các chương trình OCR sẽ được “dạy” các ví dụ của ký tự với nhiều font chữ và định dạng khác nhau. Điều này sẽ giúp chương trình có khả năng so sánh, nhận dạng các kí tự trên tài liệu đã được scan. 

  2. Feature detection (nhận dạng đặc tính): các chương trình OCR sẽ được “dạy” để áp dụng các đặc tính được xây dựng sẵn của 1 ký tự hay 1 chữ số để nhận dạng chúng trong 1 tài liệu đã được scan. Các đặc tính này có thể bao gồm số nét nghiêng, nét cắt ngang hoặc cong để cấu thành nên 1 ký tự. Ví dụ, máy có thể được dạy để nhận dạng ký tự “A” viết hoa khi có 2 nét nghiêng tiếp xúc với nhau ở đỉnh và có 1 nét ngang nằm giữa.


Một khi các ký tự, cụm từ, chữ số này đã được nhận dạng, chúng sẽ được chuyển hóa thành dạng mã ASCII để hệ thống máy tính có thể thao tác sâu hơn. Tuy nhiên, vì công nghệ này vẫn chưa được hoàn thiện 100%, đối với những hình ảnh có màu nền và màu chữ không quá tương phản nhau hoặc các tài liệu nhòe mực thì OCR vẫn chưa thể xác định chính xác các cụm từ đó.



Xu hướng tất yếu

Trên thế giới, xu hướng paperless office (văn phòng không còn xuất hiện quá nhiều tài liệu giấy) đã và đang là mục tiêu phát triển nơi làm việc của nhiều công ty lớn trên thế giới. Công nghệ OCR cũng nhờ đó mà được đầu tư phát triển hơn, có độ chính xác khi trích xuất cao hơn và nhanh hơn. 

Tuy vậy, công nghệ OCR ở Việt Nam chưa được hoàn thiện do đặc thù chữ viết tiếng Việt, song, các kỹ sư ở Viettel AI vẫn luôn nghiên cứu, phát triển và hoàn thiện công nghệ OCR để có thể đưa sản phẩm hoàn thiện nhất giúp ích cho cộng đồng. Trong tương lai không xa, dịch vụ Nhận dạng quang học (OCR) sẽ được Viettel AI ra mắt trên website. Vì thế, hãy theo dõi Viettel AI thường xuyên trên cả Facebook và website để được nhận thông tin sớm nhất, bạn nhé!