Phần mềm đặc biệt để nhận dạng chữ (ocr)

     

Bạn đang khám phá OCR là gì. Bạn có nhu cầu tìm tìm một chiến thuật cho bài toán OCR, hay thậm chí còn xây dựng phần mềm nhận dạng văn bản ocr của riêng rẽ mình. Đây là bài viết dành cho bạn. Hãy tìm hiểu ngay nào!

OCR cần thiết cho thời đại tự động hóa như hiện tại nay. OCR cung cấp con bạn trong nhiều lĩnh vực của cuộc sống:

- Thực hiện công việc nhàm ngán như nhập liệu thủ công.

Bạn đang xem: Phần mềm đặc biệt để nhận dạng chữ (ocr)

- Kiểm tra thông tin giấy tờ, hoá đơn, biên lai.

- cung cấp trong việc kiểm soát và điều hành phương tiện thể và lẻ loi tự bình an giao thông.

Để biết do sao nó hữu ích như vậy, ta cùng mày mò xem OCR là gì và phương pháp công nghệ OCR hoạt động trong một trong những phần mềm dấn dạng chữ nhé.

Video demo thành phầm OCR

1. OCR là gì?

1.1 khái niệm chung

Thuật ngữ OCR là viết tắt của Optical Character Recognition, thừa nhận dạng ký kết tự quang học, được áp dụng để mô tả các kỹ thuật với công nghệ đổi khác hình ảnh văn phiên bản sang định dạng khác cơ mà máy tính rất có thể hiểu được.

*

Tổng quan tiền về ứng dụng nhận dạng chữ ocr

Một phần mềm nhận dạng chữ chuyển động qua những bước sau:

Bước 1: Nhận đầu vào là các tệp hình ảnh (ảnh chụp, ảnh được tạo bởi vì máy tính, ảnh scan), tệp pdf,...

Bước 2: tự động hóa phát hiện và nhận diện chữ, văn bản trên những tệp đó.

Bước 3: thay đổi văn bản được nhận diện sang format mà máy tính xách tay đọc được.

Bước 4: cách xử lý trực tiếp công dụng trên hoặc lưu nó vào một cơ sở dữ liệu để giải pháp xử lý tập trung.

1.2 yếu tố hoàn cảnh của vấn đề nhận diện chữ bên trên ảnh

Trên thực tế, việc OCR vô cùng khó. Chúng ta sẽ rất lâu mới hoàn toàn có thể giải quyết được triệt để nó. Hầu như thứ ảnh hưởng đến đầu vào đều thiên vươn lên là vạn hóa. Ví như chất lượng, màu sắc, độ sắc nét ảnh, nhiễu vào ảnh, hay phong thái của văn bản,...

Nếu OCR vẫn thật sự được xử lý tốt, tác dụng tìm kiếm trên Google của chúng ta về nó sẽ đưa đến một giải pháp, cơ mà khi áp dụng ta không phải lo ngại nhiều về năng suất hay công sức.

Tuy nhiên, bây giờ OCR vẫn đang được cải cách và phát triển để tiệm cận với mức tuyệt đối (có lẽ chỉ dừng ở tiệm cận, bởi mọi thứ luôn luôn có tỷ lệ rủi ro). Bởi đó, nghành này luôn luôn cần nhân lực để nghiên cứu, vận hành, cách tân và phát triển và gia hạn các khối hệ thống nhận dạng.

*

Kết trái của một chương trình dễ dàng về dấn diện chữ số bên trên ảnh

1.3 Ứng dụng của OCR

Một số ứng dụng nổi bật của OCR hoàn toàn có thể kể ra như:

* biến hóa định dạng văn bản: chuyển những tệp hình hình ảnh hay pdf (tệp mà không thể xào luộc văn phiên bản một cách đơn giản) về file word, txt tuyệt excel (tệp mà rất có thể xử lý câu chữ bằng những cách thông thường).

* thừa nhận dạng biển lớn số xe: sử dụng trong số bãi, hầm để xe; giao hàng trong việc kiểm soát lộ trình, xác minh danh tính tài xế, hay thậm chí còn là phát hiện nay tội phạm,…

*

Nhận diện đại dương số trong một hầm để xe

* nhận dạng biển cả báo giao thông: thông báo hoặc chú ý cho tài xế về những biển báo trong tầm nhìn.

*

Nhận diện chữ trên biển báo

* Trích xuất tin tức từ những loại sách vở như hóa đơn, bảo hiểm, danh thiếp, thẻ ngân hàng, chứng minh thư,...: thu thập những tin tức chỉ định một cách auto (có thể bảo quản cơ sở tài liệu hoặc xử lý trực tiếp).

*

Trích xuất thông tin minh chứng thư

* Nhập liệu trường đoản cú động: Nhập tin tức chỉ định từ tư liệu vào phần mềm (trước đó bắt buộc trích xuất thông tin).

* đồ vật đọc cho tất cả những người khiếm thị: phối hợp các technology OCR và công nghệ đổi khác văn phiên bản thành tiếng nói (text to lớn speech).

2 chiến thuật đầy đủ cho việc OCR

Các công ty, doanh nghiệp technology hiện nay, gần như 100% đều sẽ sở hữu ít duy nhất một dự án về nghiên cứu và cải tiến và phát triển về nghành nghề OCR, cơ mà lại không được giải quyết và xử lý thật sự tốt. Chính vì chưa có giải pháp đủ xuất sắc để thực hiện chung, nên các công ty đều cố gắng đưa ra những cách giải quyết cạnh tranh với đối thủ, đến khi tiệm cận được công dụng tốt.

gameandroidhay.vn cũng không ngoại lệ, công ty chúng tôi đã cùng đang nghiên cứu và triển khai một trong những phần mềm thừa nhận diện chữ bên trên ảnh, theo một phương án riêng. ứng dụng này đi sâu vào ứng dụng nhập liệu tự động của OCR. Hiệu suất của chiến thuật này là khá tốt, khoảng 95%, khi thực nghiệm cùng với bộ dữ liệu riêng. ứng dụng hiện tại vẫn được cải tiến và phát triển để luôn luôn đạt được hiệu quả cạnh tranh. Vì cũng giống như thực trạng của vấn đề OCR, chưa nơi nào có thể bao gồm một giải pháp nhận dạng chữ ocr đủ xuất sắc để sử dụng chung, cho nên việc tiếp tục cải thiện hiệu suất thành phầm về OCR là việc vô cùng bắt buộc thiết.

2.1 Giải pháp

Hướng xử lý chung những bài toán OCR luôn luôn có 3 bước chính:

* Phát hiện nay văn bản (Text detection)

* nhấn dạng văn bản (Text recognition)

* Trích xuất tin tức (Information Extraction).

Mỗi bước bao gồm này rất có thể cần tiền xử trí và/hoặc hậu xử lý dữ liệu nếu cần thiết.

Có thể trước đó ta vẫn nghĩ, "Chỉ đơn giản và dễ dàng là lấy thông tin từ ảnh thôi, tại sao lại yêu cầu nhiều bước tới vậy?". Hoặc "Tại sao technology phát triển mang lại vậy mà lại vẫn bắt buộc xử lý phức tạp thế?".

Việc con fan hay lắp thêm móc thừa nhận diện chữ trên ảnh đều bắt buộc theo từng bước: xác minh văn bạn dạng nằm nơi đâu (where), văn bản là gì (what) và phần đông nội dung nào quan trọng cho yêu cầu (which). Do họ thực hiện quá nhanh, bắt buộc vô tình ko ý thức được ví dụ từng bước, yêu cầu nghĩ việc đó cũng dễ dàng với sản phẩm công nghệ móc. Thực chất sự cải tiến và phát triển của technology cũng đi từng bước phức hợp như vậy, chứ không hề phải dễ dàng và đơn giản đi sang 1 bước nhưng ra được kết quả. (Những chiến thuật tối ưu thì thường xuyên dài, nhưng điều ngược lại thì không chắc).

Để giúp mọi tín đồ có một chiếc nhìn nắm thể, tôi đang lấy câu hỏi Trích xuất thông tin từ hoá đơn tiếng Nhật làm cho ví dụ. Ta cùng đi sâu hơn vào từng bước.

Xem thêm: Tiêm Botox Thon Gọn Mặt - Tiêm Botox Thon Gọn Hàm Có Hại Không

2.1.1 cách 1: Phát hiện văn bạn dạng (Text Detection)

Ở cách này, thông thường, khối hệ thống sẽ khẳng định vùng văn bạn dạng theo dòng. Tuy vậy nếu những chữ trong văn bạn dạng không đủ gần nhau, mỗi dòng rất có thể được phân thành nhiều vùng.

Sau khi xác định được vùng văn bản, phần mềm sẽ gán nhãn chúng bằng những hộp số lượng giới hạn (bounding boxes) (Hình 6). Hộp số lượng giới hạn là các hình chữ nhật bảo phủ vật thể (ở đây là vùng văn bản) nhằm xác định vị trí của đồ thể đó.

Việc vẽ những hộp lên ảnh chỉ phục vụ mục đích minh họa, còn bản chất việc phát hiện tại văn bản là chỉ dẫn thông tin của những hộp số lượng giới hạn đó (có thể là toạ độ những góc, toạ độ trọng tâm hoặc chiều dài, chiều rộng của hộp)

*

Minh họa tác dụng của text detection

Nhưng khi dìm được dữ liệu là hình ảnh một hóa đối chọi với background như Hình 7, bạn sẽ xử lý nuốm nào nhằm phát hiện nay văn bản:

*

Ảnh đầu vào với background tinh vi hơn

Khi ta vẫn đưa ảnh trên vào bước phát hiện tại văn phiên bản luôn, tất nhiên hiệu quả trả về vẫn rất có thể đủ số đông phần văn bản cần thiết. Nhưng như vậy sẽ phân phát sinh một trong những vấn đề:

* Background tất cả chứa văn bản hoặc đựng vật thể có thể bị nhận nhầm thành văn bản.

* Độ nghiêng của những dòng văn phiên bản quá lệch so với nhau, sẽ tác động đến sản phẩm tự nhận dạng hộp giới hạn.

* chất lượng hình hình ảnh có thể không đủ tốt.

Tất cả những sự việc trên hoàn toàn có thể chưa khiến cho việc phát hiện tại chữ gặp mặt lỗi, tuy nhiên sẽ tác động không giỏi đến cách nhận diện chữ về sau (Phần này là nhờ vào thực nghiệm nên shop chúng tôi phát hiện ra một trong những vấn đề).

Để tương khắc phục, chúng tôi đã đưa ra quyết định tiền xử lý đầu vào qua 2 bước trước lúc phát hiện nay văn bản. Đó là cắt vùng ảnh quan trung tâm (Crop ROI) và nâng cao chất lượng ảnh (Enhance). Kết quả sau tiền giải pháp xử lý như Hình 8a và 8b.

a.

*
b.
*
c.
*

a. Công dụng sau Crop ROI; b. Hiệu quả sau Enhance; c. Tác dụng sau Detection

Bằng mắt thường chúng ta cũng có thể khó nhận thấy sự khác hoàn toàn giữa hình ảnh trước Enhance với sau Enhance. Mà lại khi thực nghiệm, năng suất sau Enhance tạo thêm 5% (từ 75% lên 80%). Rất có thể cách đồ đạc quan sát ảnh sẽ "tỉ mỉ" rộng con bạn đôi chút :D.

Ảnh sau 2 cách tiền cách xử trí sẽ chuyển qua mô hình Học sâu (Deep Learning) để phát hiện văn bản. Kết quả được trực quan tiền hóa như Hình 8c. Với trường thích hợp này, ứng dụng phát hiện tại được tất cả vùng văn bạn dạng và vùng rất có thể nhận là văn bản.

Ta sẽ phụ thuộc vào thông tin những hộp số lượng giới hạn của vùng văn bạn dạng để lấy ra các ảnh, mỗi ảnh là một vùng văn phiên bản đã được phạt hiện. Cùng với hình 7 sẽ có được 37 hình ảnh đầu ra (ứng cùng với 37 hộp). Để biết những ảnh đó tất cả nội dung gì, ta đã đưa bọn chúng qua bước nhận dạng văn bản.

2.1.2 bước 2: dấn dạng văn bản (Text Recognition)

Đến cách này, các ảnh chứa vùng văn phiên bản sẽ được phần mềm nhận dạng, rồi mang lại định dạng cơ mà máy hoàn toàn có thể hiểu và xử lý được (thường được lưu dưới dạng file txt).

Ban đầu, khi không hậu xử lý, hiệu suất nhận dạng chỉ đạt mức 80%. Tác dụng này hoàn toàn có thể bắt nguồn từ 2 vấn đề chính:

* tài liệu chưa đủ các hoặc quy mô chưa đủ giỏi để phần mềm đạt ngưỡng cao.

* Văn bản khá đặc thù (tiếng Nhật) buộc phải gây khó khăn cho vấn đề nhận diện chữ.

Xét về sự việc 1, câu hỏi xử lý mất không ít thời gian khi nên tìm tìm mô hình, xây dựng cỗ dữ liệu, đào tạo và giảng dạy mô hình. Khía cạnh khác, hiệu suất ứng dụng không bảo đảm an toàn sẽ giỏi hơn. Vậy yêu cầu gameandroidhay.vn đưa ra quyết định chọn xử lý sự việc 2. Cụ thể, chúng tôi đã hậu xử lý cổng đầu ra của bước nhận dạng, đó là Sửa lỗi chủ yếu tả (Spell Correction).

Việc sửa lỗi bao gồm tả này đa số dựa trên luật, và nó thực sự có hiệu quả, góp hiệu suất tạo thêm 13% (từ 80% lên 93%).

Khi đã có được thông tin (sau detection) và văn bản (sau recognition) của những vùng ảnh, ta có thể trực quan hóa kết quả như hình 9 (kết trái được viết lên một hình ảnh trắng, có kích thước bằng hình ảnh sau cách Crop ROI).

*

Kết quả sau khoản thời gian phát hiện và nhận dạng văn bản

Kết trái trên đạt 94.6% tổng số từ (35/37 boxes đúng) với 99% tổng số ký tự (289/292 ký tự đúng). đầy đủ phần chưa nhận diện được bao gồm:

* mẫu thứ 11 (box sản phẩm 13), nội dung là "※フライドポテ卜 シュ-ス卜リングカッ卜 1KG 195", lúc viết thì bị tràn độ rộng của hình ảnh nên chưa hiện hết

* mẫu mã vén (box sản phẩm công nghệ 35) bị nhận dạng sai (bước trích xuất thông tin sẽ loại bỏ nội dung này).

Sau lúc có hiệu quả nhận diện chữ bên trên ảnh, ta đi đến bước cuối cùng, trích xuất thông tin.

2.1.3 bước 3: Trích xuất thông tin (Information Extraction)

Tại đây, phần mềm sẽ tinh lọc những trường tin tức đã được hướng dẫn và chỉ định hoặc có ý nghĩa (tùy yêu ước của tín đồ sử dụng), làm lơ những tin tức còn lại. Tin tức được chỉ định sẽ chuyển đổi tùy trực thuộc vào yêu cầu của khách hàng hàng. Với câu hỏi ban đầu, công dụng sau khi trích xuất thông tin được xuất ra tệp tin txt như Hình 10.

*

Kết quả sau khoản thời gian trích xuất thông tin

Những ngôi trường thông tin cần thiết của việc gồm:

* Địa chỉ cửa hàng

* Ngày xuất hoá đơn

* thành phầm (Tên + Giá)

* Tổng giá cùng Tiền trả lại

Những trường ta đem được tự Hình 7 gồm:

* Ngày xuất hoá đơn

* Sản phẩm

* Tổng giá

2.2 Tổng hợp

Như vậy, phần mềm nhận dạng văn bản nhận đầu vào là một ảnh (tương trường đoản cú Hình 7) và trả về một tệp văn bạn dạng (tương tự Hình 10). Và một pipeline chi tiết mà công ty chúng tôi đã thực hiện để giải quyết bài toán đã đưa ra như sau:

*

Giải pháp tổng phù hợp cho việc OCR

3 Kết luận

Bài viết này đã trả lời cho thắc mắc OCR là gì, cung cấp một số thông tin về OCR và trình tự xử lý một câu hỏi OCR. Mong muốn mọi fan thấy hữu ích và cỗ vũ những nội dung bài viết sắp cho tới về Trí tuệ tự tạo của tôi.

Xem thêm: Milimet Vuông Bảng Đơn Vị Đo Diện Tích, Giải Toán 5 Trang 28

Nếu độc giả lưu ý đến các thương mại dịch vụ như: cách tân và phát triển website, phần mềm, game, trí thông minh nhân tạo, hãy contact với gameandroidhay.vn, công ty chúng tôi luôn sẵn sàng support miễn phí gần như thắc mắc của các bạn.