[心得] Imagemagick 自炊電子書
大家好,書版第一次發文請多指教。
最近剛入坑自炊電子書,成功用 Microtek DI 2125C 搭 Imagemagick 弄了一套自炊流程出來。我搜「Imagemagick 自炊」好像中文資料不多都是日文資料,就把自己的流程拿來分享了。文章改自自己網誌沒有盜文。
我買 Microtek DI 2125C 的理由:
- 夠便宜(我買 2490 NTD)
- 功能夠(有 ADF、彩色雙面掃描)
用到的軟體:
- Imagemagick:後處理基本靠它
- ABBYY FineReader Sprint:掃描器附的,用來把圖檔批次 OCR 然後轉 PDF
- k2pdfopt:幫 PDF 加目錄
- Powershell:Windows 10 內建,用來批次改檔名或檔案屬性
- PDF-Xchange editor(免費版):對目錄做細微編修
大約流程
找影印店裁書,掃描存圖檔
圖檔要檢視有沒有跳頁或是嚴重扭曲,有的話重掃並且設定好檔名,使檔名
lexicological order 和紙本頁面順序一致。
重排檔名,和依照檔名順序重設修改時間
避免檔名或修改時間的順序紊亂,導致匯入其他 App 後順序順序錯亂,以下
powershell 腳本「-whatif」要拿掉才會真正改檔名,否則只是預覽。
依原本檔名順序批次重新命名
(Dir *.jpg) | sort name | ForEach { $count=1 } {
$scount=([string]$count).PadLeft(4,'0')
rename-item $_ -NewName ngimg-$scount.jpg -whatif; $count++
}
依檔名重排修改時間
$dirs = (Dir *.jpg) | sort name
ForEach($d in $dirs) {
$file = Get-Item $d
$file.LastWriteTime=(Get-Date)
}
圖檔轉檔為 PNG
不用 jpg 是怕反覆修改存檔越來越失真。後面的步驟每次使用 mogrify 前都建議複製圖檔目錄做備份,因為 mogrify 會原本修改原本圖檔造成不可逆變化。
magick mogrify -format png *.jpg
去背景
magick mogrify *.png -transparent white -fuzz 50%
fuzz 網路教學設 90%,我保險一點設 50%
Imagemagick 切黑邊,傾斜校正(deskew)然後再切黑邊
切除黑邊
magick mogrify -fuzz 30% -define trim:percent-background=10% -background
black -trim +repage *.png
個人測試的結果,percent-background 不設成 0 可避免去黑邊的時候吃掉太多正常內容,切完後周圍會有很細微黑邊但個人可接受。書中有大量黑底的,可把
percent-background 拉高或把 fuzz 壓低,try and error 根據最終效果做調整
傾斜校正(deskew)
magick mogrify -deskew 80% *.png
個人使用體驗,deskew 設 80% 會比網路上普遍的 40% 好些,至少對我的掃描器是如此。如果先做傾斜校正,圖檔四周可能多出不同色,和原本黑邊混雜,造成後續去黑邊困難。所以先去黑邊再傾斜校正,再去一次黑邊去除掉傾斜校正造成的額外黑邊。
影像銳化
magick mogrify *.png -sharpen 0x1.5 -modulate 100,130,100
modulate 三個參數分別代表亮度、對比和 hue。100 代表原值。個人選擇調高對比。
sharpen 0x1.5 是網路建議,測試後肉眼可接受。
圖片檔案批次匯入,做 OCR,存成 pdf
我用掃描器附的 Finereader 解決
建立 PDF 目錄(table of content)
k2pdfopt -mode copy -n -toclist 目錄檔.txt 輸入pdf.pdf -o 輸出pdf.pdf
其中目錄檔的格式如下,前面的數字代表對應 pdf 的頁數,+ 號代表縮排
20 Chapter 1 大章節
+21 1.1 小章節1
+26 1.2 小章節2
弄好後可用免費的 PDF-Xchange editor 把目錄中不小心插入的空白項目等移掉,
PDF-Xchange editor 若只是刪除現有目錄中的項目是不會加浮水印的。
自炊的電腦叢書抓圖。PDF 有目錄,文字沒有歪斜且清楚。旁邊很醜的字是個人閱讀用鉛筆做的筆記,300dpi 下(我自己)還是能看懂寫什麼。
我也試了不少其他 App,包含中國製 Camscanner 掃描全能王,Adobe scan、MicrosoftLens 等但各有各的問題。
Camscanner 最好用,但有浮水印,電腦版還要你把資料傳上雲端,之前好像還爆發過資安疑慮,MS Lens 發現 Android App 不能一次匯入大於一百張就放棄了。
花了一兩天,發現其實以裁書後用掃描器掃描的圖片品質,用 Imagemagick 搭
pipeline 做後處理就很夠用了。影像來源才是決定電子書品質的關鍵,影像來源太差,例如用手機搭自拍支架拍照片,照片還有手指,不管後續用什麼軟體,得到的結果都是歪七扭八又模糊。
當然買好點的機器也是解法,例如網路推薦的自炊神器富士通 Scansnap ix1500 除了掃描速度更快,機器軟硬體好像還附贈更好的校正功能,說不定就不用自己土炮後處理
pipeline 了?但那台機器對只想「試試看」自炊的我太貴了,後來就算了。
--
感覺很利害
感謝,我也用ImageMagick,根據你的文改進了些
推心得
感謝分享,操作流程很詳盡
感覺很屌
推
推
推
自炊好厲害!!
推一個
爆
[iAPP] Doc Scan - PDF Fax 文件掃描器軟體名稱:Doc Scan - PDF Fax 文件掃描器 軟體分類:生產力工具 軟體連結: 安裝方式:App Store 適用韌體:iOS 11.0 或以上13
Re: [閒聊] 自己做的vlive統整下載清單TWICE vlive網址清單(截至2022/11/01): 下載程式yt-dlp下載處: 合併程式ffmpeg下載處: 批次下載命令1: 批次下載命令2:10
Re: [購機] 三星 tab s7 VS 蘋果 ipad air 4tab s7+, 上市時就購入, 但不爽買台灣6G, 直接買香港購物網站(友和)的8g版本 鍵盤也單買, 所以沒享什麼折扣, 但8G就是爽 tab s7+已經是每日工作不可或缺了, 這裡分享一下samsung notes samsung notes最近一版更新後已經達到我個人認為不輸noteshelf的強大pdf功能 個人因為工作關係常會閱讀paper, 寫筆記, 念paper作筆記7
[問題] ipad作筆記的疑問機型:待定 (請使用正確名稱勿簡稱) 系統版本:待定(設定→一般→關於本機→版本) 問題描述: 最近打算把參考書電子化, 看一看普遍推ipad pro/air+pencil, 不過想在花錢前確認是 否符合需求:6
Re: [討論] 版上自炊神器感覺跟這台差不多?自炊神器的組合只是個大家推薦的通包方案, 既然是通包方案,就代表其實很多動作可以分拆出來,以便宜的方式取代 自炊大致分成3個步驟:裁切、掃瞄跟後處理 裁切: 小從美工刀,大到笨重的裁紙機都可行,5
[問題] 哪裡有賣DRM-free的電子書?因為使用雙向連結的閱讀編輯器做書本筆記, 需要能夠擁有 DRM-free、可以自由下載編輯的 PDF 檔案, 這樣在做筆記時可以產生雙向連結。 目前我的作法是買實體書然後用掃描軟體轉成 PDF 檔, 但是這樣有點花時間,因此想問沒有 DRM-free 的電子書商店 (中英文皆可),5
Re: [軟體] 影片大量轉檔程式更新一下前導腳本,現在搭配 ffmpeg 和 ffprobe 一起使用 下載腳本,解開檔案後放在 ~/Library/Scripts/ 下面即可 使用前先到官網 下載 mac 版本 ffmpeg 和 ffprobe 把兩個執行檔放在 /usr/local/bin/ 裡面.1
[問題] 有馬賽克功能的pdf editor因為PDF檔有些資訊想要隱藏起來, 有些markup app有馬賽克功能,遮起來比起用海苔條比較好看也不奇怪,但只能用圖檔輸入 。 一些常用的PDF Editor大都是anotation的標記,想問有沒有能打馬賽克的PDF Editor,要 能開跟編輯有密碼的檔案,謝謝。