View Full Version : Chương trình nhận dạng văn bản tiếng Việt qua máy scan
zamenz
12-12-2007, 09:06 PM
Đây là chương trình VNDocr 4.0 Demo
Bản full thì mắc lắm, mấy bác xài đỡ bản demo nhé. Phiên bản mới nhất đó. Nó không cho save, mấy bác cứ copy qua Word là OK liền.:063:
http://www.vndocr.com/upload/vndocr40demo.zip
Size: 10.93MB
Thích hợp cho việc đả tự nhe anh em.
zeuspnt
12-12-2007, 09:42 PM
phải dùng chương trình http://www.deskperience.com/Setup/AquaSetup.exe mới có thể copy đc
crack http://www.crack.ms/cracks/crack.ms?id=2004268
KaZuHa
12-12-2007, 10:36 PM
cái này mấy hôm nay thấy anh em đả tự nhọc quá tôi thử rồi......nhưng không xài được...Zeus đã thủ chưa ...convert có 2 công đoạn:
B1: Dùng VnDocr4.0 để nhận dạng văn bản...sau đó chương trình tự động convert sang chữ...bản demo thì sẽ không cho save...vậy chỉ việc bôi đen dòng chữ đó rồi kéo chuột xuong file DOC là ok
B2: Không cần dùng Deskperience nua...
............
Tuy nhiên VnDocr chỉ làm việc với văn bản ĐEN TRẮNG...và tui bị vướng ở đoạn này...tui đã thử với BACH KIEM LINH MA...chương trình đều bảo là ko phải file ĐEN TRẮNG...>.<"....nên ko thể nhận dạng...đau quá
............
Tôi đã tìm 1 chương trình khác tên là ABBYY FindReader 8.0...nhận dạng văn bản cực tốt...convert được khoang gần 200 ngôn gũ...nhưng không có tiếng việt mới đau...
Tui đang thử tạo phông tiếng việt cho chương trình mà chưa làm được...ai cao thủ giúp giùm...nghiên cứu cái...
Link down: http://fr7.abbyy.com:80/fr80/FR80PE_TB_ER.exe
Crack: chưa kiếm được crack xịn
zeuspnt
12-12-2007, 10:42 PM
trước tiên mình mở file truyện bằng acrobat print từng trang màn hình xong
mình dùng photoshop tạo file mới 1 bít (bitmap) sau đó lưu lại *.tif xong mới dùng tới vnDOC
hơi vất vã phải kô :4:
KaZuHa
12-12-2007, 10:53 PM
tôi thì 1 là chuyển sang dạng pic...thì nó ko chịu...đang kiếm chương trình...convert 1 phát từ .pdf sang .tif...Zeus tìm được chưa..
zeuspnt
13-12-2007, 01:23 PM
nếu bạn tìm đc thì tốt quá, mình thì vẫn dùng cách thủ công ở trên đó thôi :4:
tôi thì 1 là chuyển sang dạng pic...thì nó ko chịu...đang kiếm chương trình...convert 1 phát từ .pdf sang .tif...Zeus tìm được chưa..
cho ban link này :http://www.softinterface.com/DL/DL_Product.ASP?ProductType=Convert Image
nó chuyển file pdf sang tiff hay các dang khác bitmap. Bạn vao đó load đi, nhưng nen nhớ chuyển sang réolution dạng B&W nhe. thân
zeuspnt
13-12-2007, 01:48 PM
mới ngộ ra cái này http://print-driver.com/howto/converting/convert_adobe_pdf_to_tiff.htm
khỏi cần chương trình nào ráo trọi :021:
alkhan
16-12-2007, 07:34 AM
sao đệ tạo đc file .tiff rồi nhưng cái vndocr nó ko chịu đọc vậy ?
dieorlive
16-12-2007, 08:17 AM
phải làm tiếp thao tác phân ngưỡng cho ảnh thì nó mới nhận dạng!
alkhan
16-12-2007, 08:45 AM
huynh làm ơn chỉ rõ cho đệ đc ko? CÁi này đệ mới làm nên chưa có kinh nghiệm
Đệ tạo được file *tif từ file fdf rồi, nhưng cái vndocr nó ko chịu đọc file *tif đó.
Nó cứ báo lỗi khi đọc file thôi.
huynh nào gặp cái này chưa? Cách khắc phục thế nào, làm ơn chỉ đệ với?
huynh làm ơn chỉ rõ cho đệ đc ko? CÁi này đệ mới làm nên chưa có kinh nghiệm
Đệ tạo được file *tif từ file fdf rồi, nhưng cái vndocr nó ko chịu đọc file *tif đó.
Nó cứ báo lỗi khi đọc file thôi.
huynh nào gặp cái này chưa? Cách khắc phục thế nào, làm ơn chỉ đệ với?
cái vndock này nó đòi file tiff phải là revolution theo B&W, bạn phải convert file pdf theo chế độ black and white , sau đó trên vndock , click vào " nhận dạng ", lúc đó nó mới hiểu được. thân
alkhan
16-12-2007, 10:06 AM
mình dùng cái này để chuyển
mới ngộ ra cái này http://print-driver.com/howto/converting/convert_adobe_pdf_to_tiff.htm
khỏi cần chương trình nào ráo trọi :021:
@ aphi : mình load cái của bạn về, nó hình như chỉ xài để phân biệt sự khác nhau của 2 văn bản thôi mà?
hutructiensinh
21-12-2007, 10:18 PM
Rất may, tại hạ có một chút kinh nghiệm trong việc nhận dạng này, tại hạ xin có một vài ý kiến nho nhỏ như sau:
- Vndocr chỉ nhận dạng với ảnh B&W, và từ 300dpi trở lên, bé hơn thì thôi, đừng dùng đến, vì khi đó có khi đả tự còn nhanh hơn là sửa!
- Muốn lấy ảnh từ *.pdf sang thì dùng adobe acrobat pro từ 7.0 trở lên.
+ Vào trình đơn File, chọn save as...
+ Trong hộp hội thoại, ở dưới chọn Save as type là TIFF hoặc PNG đều được.
+ Nhìn sang bên phải hộp hội thoại, click vào hộp Settings...
+ Trong hộp thoại settings, tất cả ở trên để mặc định, ở dưới cùng, trong tab Conversion: colorspace: Monochrome; Resolution: 300dpi (nên chọn thế này thôi). Chọn OK
+ Chọn Save, bây giờ ta đã có ảnh của file *.pdf dạng *.TIFF hoặc *.PNG.
- Công đoạn cuối cùng là dùng vndocr, đọc ảnh và nhận dạng thôi!
Chúc các bạn thành công!
----- Bài viết này được hutructiensinh thêm vào sau 13 phút và 2 giây -----
Ngoài ra, sau khi nhận dạng bằng vndocr bản demo này, các bạn gặp phải hiện tượng xuống hàng vô tội vạ! Sau đây tại hạ xin copy, paste lại bài viết của một bằng hữu bên thuvien-ebook.com (bằng hữu: h2203), bằng hữu này viết nguyên văn như sau:
Bạn xem đoạn code sau của knoppix đã được đăng trên TVE:
Gom dòng sát lại nhau
Code:
Sub ReplaceCRLF()
'knoppix: thuvien-ebook.net
'replace duplicate space chars
While InStr(1, Selection, Space(2)) <> 0
Selection = Replace(Selection.Text, Space(2), Space(1))
Wend
'delete all carriage chars
If InStr(1, Selection, vbCr) <> 0 Then
Selection = Replace(Selection.Text, vbCr, " ", , , vbTextCompare)
End If
End Sub
Cách sử dụng:
Các bạn bôi đen một đoạn văn bản có nhiều ký tự xuống dòng, sau đó chạy macro này. Tất cả các ký tự xuống dòng (CR) và hai ký tự trắng (space) liền kề nhau sẽ được loại bỏ.
Để thuận tiện, các bạn nên đặt một phím tắt (shortcut key, vd: Alt-Delete) cho macro này. Khi bôi đen đoạn văn bản xong, bạn chỉ cần bấm phím tắt để thực hiện.
Để tạo phím tắt bạn bấm vào Tools à Customize…,-> Keyboard, ở phần Categories bạn chọn Macro, nhấn vào đó. Chuyển sang ReplaceCRLF ở cửa sổ Commands, trong phần Press new shortcut key bạn nhấn tổ hợp phím tắt mà bạn thích ví dụ Alt+Delete ( tôi khoái dùng Alt+` do thuận tay, tay phải dùng chuột bôi đen, tay trái xẹc Alt+`), nhấn Assign để tạo phím nóng, đóng cửa sổ lại.Từ nay bạn chỉ việc bôi đen đoạn văn bản, rồi nhấn tổ hợp phím nóng là nó tự động nối hàng dùm.
Để tạo ra Macro này,chọn Tools -> Macro -> Visual Basic Editor. Trong Project chọn Normal. Sau đó chọn trên trình đơn Insert -> Module, dán đoạn code dưới đây vào rồi đóng Visual Basic Editor lại.
hoangk2n
22-12-2007, 01:04 AM
bạn dùng chương trình ABBYY FineReader Professional 9.0.0.724 chuyển đổi file PDF sang dạng ảnh, sau đó save images dưới dạng TIFF,Black and White, Group4 (*.TIF) là được. Sau đó dùng Vndocr 4.0
ABBYY FineReader Professional 9.0.0.724 (http://fr7.abbyy.com/fr90/FR90PE_ESD.exe)
Crack (http://aramix.org/cuongxd/upload/ABBYYFineReaderProfessional9-%20Licence.rar)
BatHoangHoaLong
21-01-2008, 02:36 AM
Đệ dùng Vndort để nhận dạng nhưng sau khi nhân dạng chỉ thấy toàn ký tự loàng ngoằng (như run). Mong các huynh đệ có kinh nghiệm chỉ bảo!
caiduoc
21-01-2008, 01:14 PM
Mấy huynh có thể xài thử nhu liệu miễn phí này để scan sách tiếng Việt.
Vào trang này để lấy.
http://vietunicode.sourceforge.net/howto/tesseract-ocr.html
vaan_2410
21-01-2008, 10:13 PM
có bạn nào biết chương trình nhận dạng tiếng trung ở file img rồi chuyển sang file text chỉ cho mình với ^_^
lovemanga
26-01-2008, 09:01 PM
Giống như trên, cho mình xin chương trình nhận dạng tiếng trung ở file img sang file text với vì mấy truyện sau này toàn up trên file img thôi
TruyThe
28-01-2008, 02:07 AM
phải làm tiếp thao tác phân ngưỡng cho ảnh thì nó mới nhận dạng!
Bác nói rõ ra cho đệ được ko! vì đệ sang đuôi tif rồi, nhưng khi đọc ảnh nó vẫn bao lỗi :020:
vBulletin® v3.8.5, Copyright ©2000-2013, Jelsoft Enterprises Ltd.