PTT評價

Re: [閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識

看板C_Chat標題Re: [閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識作者
medama
( )
時間推噓 8 推:8 噓:0 →:9

※ 引述《LABOYS (洛城浪子)》之銘言:
: https://twitter.com/KenAkamatsu/status/1547567317894463488
: https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg

: 拜訪了(株)モルフォAIソリューションズ株式會社
: 我曾經闡述我的夢想是
: 「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」: 沒想到負責該技術的就是這間公司。
: 舊書籍的圖像→文本轉化,以現在的技術已經非常高水準,
: 以後期待能朝著利用人工智慧的領域,
: 利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。
: 如果這個夢想成真,那麼其益處將是無法計量的。
他這裡的古文書指的是古代日本的手寫草書字體,
不是單純舊書籍的意思
以前都要人工辨認,非常費時,
現在技術已經可以用電腦辨認,
今後的目標是用電腦靠前後文來提升字體辨認率

例:
https://i.imgur.com/WURzdkp.png

https://i.imgur.com/gIfD3n9.png
一般人沒學過日文草書
大概只能辨識出20%漢字和假名
以往是靠專家學者辨認再轉寫
不過目前電腦的辨識率已經到能80%以上

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.25.50 (臺灣)
PTT 網址

kaj198307/14 22:12第二張和我家附近的診所醫師在寫病歷時一樣筆跡耶XD

D2Diyus07/14 22:12古日本很多大名親筆書信真的潦草到日本人也認不出來(

hinajian07/14 22:25以後人機驗證變成 認得出來的是AI 認不出來的是人類了(X

yung8011107/14 22:29古代人看得懂這在寫啥?

daidaidai0207/14 22:30哇靠偉業

inte629l07/14 22:31這些古文書主要用意是在哪啊? 契約之類的?

medama07/14 22:34用在任何地方啊 這是古代的書寫體

chewie07/14 22:40https://bit.ly/3RrFl6S

chewie07/14 22:41這篇可以看書寫體-古文-現代文體的翻譯 第一步的書寫體辨

chewie07/14 22:41識若能用AI辨識協助會快很多

w1191807/14 22:52一樓那個叫醫學速寫

mn43507/14 23:04搞不懂寫這麼樣 收信人就算會草書也讀得很吃力吧

winglight07/14 23:16虎鯨文也能辨識嗎?

bluejark07/14 23:19以現在的深度學習來說是可以做到的

medama07/14 23:20不會很吃力啊 草書是另一套字體 不是胡亂寫的

bluejark07/14 23:21就是先把一些對照表做出來再讓AI去辨識

nilr07/15 07:49