PTT評價

[心得] Imagemagick 自炊電子書

看板book標題[心得] Imagemagick 自炊電子書作者
d8888
(Don)
時間推噓12 推:12 噓:0 →:0

大家好,書版第一次發文請多指教。

最近剛入坑自炊電子書,成功用 Microtek DI 2125C 搭 Imagemagick 弄了一套自炊流程出來。我搜「Imagemagick 自炊」好像中文資料不多都是日文資料,就把自己的流程拿來分享了。文章改自自己網誌沒有盜文。

我買 Microtek DI 2125C 的理由:
- 夠便宜(我買 2490 NTD)
- 功能夠(有 ADF、彩色雙面掃描)

用到的軟體:
- Imagemagick:後處理基本靠它
- ABBYY FineReader Sprint:掃描器附的,用來把圖檔批次 OCR 然後轉 PDF
- k2pdfopt:幫 PDF 加目錄
- Powershell:Windows 10 內建,用來批次改檔名或檔案屬性
- PDF-Xchange editor(免費版):對目錄做細微編修

大約流程

找影印店裁書,掃描存圖檔

圖檔要檢視有沒有跳頁或是嚴重扭曲,有的話重掃並且設定好檔名,使檔名
lexicological order 和紙本頁面順序一致。

重排檔名,和依照檔名順序重設修改時間

避免檔名或修改時間的順序紊亂,導致匯入其他 App 後順序順序錯亂,以下
powershell 腳本「-whatif」要拿掉才會真正改檔名,否則只是預覽。

依原本檔名順序批次重新命名

(Dir *.jpg) | sort name | ForEach { $count=1 } {
$scount=([string]$count).PadLeft(4,'0')
rename-item $_ -NewName ngimg-$scount.jpg -whatif; $count++
}


依檔名重排修改時間

$dirs = (Dir *.jpg) | sort name
ForEach($d in $dirs) {
$file = Get-Item $d
$file.LastWriteTime=(Get-Date)
}


圖檔轉檔為 PNG

不用 jpg 是怕反覆修改存檔越來越失真。後面的步驟每次使用 mogrify 前都建議複製圖檔目錄做備份,因為 mogrify 會原本修改原本圖檔造成不可逆變化。

magick mogrify -format png *.jpg

去背景

magick mogrify *.png -transparent white -fuzz 50%

fuzz 網路教學設 90%,我保險一點設 50%

Imagemagick 切黑邊,傾斜校正(deskew)然後再切黑邊

切除黑邊

magick mogrify -fuzz 30% -define trim:percent-background=10% -background
black -trim +repage *.png


個人測試的結果,percent-background 不設成 0 可避免去黑邊的時候吃掉太多正常內容,切完後周圍會有很細微黑邊但個人可接受。書中有大量黑底的,可把
percent-background 拉高或把 fuzz 壓低,try and error 根據最終效果做調整

傾斜校正(deskew)

magick mogrify -deskew 80% *.png

個人使用體驗,deskew 設 80% 會比網路上普遍的 40% 好些,至少對我的掃描器是如此。如果先做傾斜校正,圖檔四周可能多出不同色,和原本黑邊混雜,造成後續去黑邊困難。所以先去黑邊再傾斜校正,再去一次黑邊去除掉傾斜校正造成的額外黑邊。

影像銳化

magick mogrify *.png -sharpen 0x1.5 -modulate 100,130,100

modulate 三個參數分別代表亮度、對比和 hue。100 代表原值。個人選擇調高對比。
sharpen 0x1.5 是網路建議,測試後肉眼可接受。

圖片檔案批次匯入,做 OCR,存成 pdf

我用掃描器附的 Finereader 解決

建立 PDF 目錄(table of content)

k2pdfopt -mode copy -n -toclist 目錄檔.txt 輸入pdf.pdf -o 輸出pdf.pdf

其中目錄檔的格式如下,前面的數字代表對應 pdf 的頁數,+ 號代表縮排

20 Chapter 1 大章節
+21 1.1 小章節1
+26 1.2 小章節2


弄好後可用免費的 PDF-Xchange editor 把目錄中不小心插入的空白項目等移掉,
PDF-Xchange editor 若只是刪除現有目錄中的項目是不會加浮水印的。

https://tinyurl.com/9w5swu33

自炊的電腦叢書抓圖。PDF 有目錄,文字沒有歪斜且清楚。旁邊很醜的字是個人閱讀用鉛筆做的筆記,300dpi 下(我自己)還是能看懂寫什麼。


我也試了不少其他 App,包含中國製 Camscanner 掃描全能王,Adobe scan、MicrosoftLens 等但各有各的問題。

Camscanner 最好用,但有浮水印,電腦版還要你把資料傳上雲端,之前好像還爆發過資安疑慮,MS Lens 發現 Android App 不能一次匯入大於一百張就放棄了。

花了一兩天,發現其實以裁書後用掃描器掃描的圖片品質,用 Imagemagick 搭
pipeline 做後處理就很夠用了。影像來源才是決定電子書品質的關鍵,影像來源太差,例如用手機搭自拍支架拍照片,照片還有手指,不管後續用什麼軟體,得到的結果都是歪七扭八又模糊。

當然買好點的機器也是解法,例如網路推薦的自炊神器富士通 Scansnap ix1500 除了掃描速度更快,機器軟硬體好像還附贈更好的校正功能,說不定就不用自己土炮後處理
pipeline 了?但那台機器對只想「試試看」自炊的我太貴了,後來就算了。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.127.72.143 (臺灣)
PTT 網址

sivle07/27 13:17感覺很利害

in0907/27 15:08感謝,我也用ImageMagick,根據你的文改進了些

hoho807/27 16:47推心得

warrenchen07/27 18:03感謝分享,操作流程很詳盡

widec07/27 19:32感覺很屌

hedgehogs07/27 21:09

not556607/27 22:44

liquidbox07/28 14:28

zucca07/28 16:12

※ 編輯: d8888 (59.127.72.143 臺灣), 07/29/2021 19:07:09 ※ 編輯: d8888 (59.127.72.143 臺灣), 07/29/2021 19:07:46

hans147807/30 09:29自炊好厲害!!

c8c8c8c8c8c807/30 10:49

viaggiatore07/30 12:55推一個