[情報] 愛搞機手機計算攝影科普-14個常見疑問

BadGame 發表於 2022/11/18 下午10:52:05

看板MobileComm標題[情報] 愛搞機手機計算攝影科普-14個常見疑問作者

(人生歡樂易忘卻執著痛苦)時間Nov 18 22:52:05 2022推噓 8 推:8 噓:0 →:3

【計算攝影科普】算法工程師親自回答：14個手機攝影的常見疑問
https://www.igao7.com/news/202211/So4VPATqC9fGQy54.html

愛搞機這次請到虹軟的工程師親自回答從工程師的觀點來解答
另外工程師Hawk Wang在公眾號也有一系列計算攝影學文章可以去看
計算攝影學連結 https://bit.ly/3V8ho5H

平台與OTA
愛搞機靚仔：高通、聯發科、三星幾家產品的適配難度如何？聯發科平台真的更加難調嗎？發哥旗艦的 ISP 遠強於高通，但普遍反應依然是發哥拍照不行（是平台配送的基礎算法太弱？接口問題？還是算法供應商和聯發科的磨合還不夠？）
Hawk Wang：其實各個平台的產品適配難度沒有太大的區別，適配難度大、難調是因為相關平台的使用經驗缺乏、相關人才較少導致。另外不排除算力的影響，在 pipeline （處理管線）中如果有畫質類的軟件算法，那麼高算力的平台自然可以用更強的算法來得到更好的效果（比如更多幀的融合，更準確的幀間對齊，等等）。

愛搞機靚仔：同一個平台，一般有延續型的成像風格（如各家手機廠的天璣 9000 機型，都出現 HDR 暗部用力過猛、白平衡穩不住等問題），大概成因是什麼？是因為基礎算法來自同一家供應商？還是發哥平台的基礎算法或參數影響？
Hawk Wang：一般來說不同算法廠商提供的算法都有其特有的成像風格或者問題，如果是強依賴於平台的基礎算法，也會和平台基礎算法或參數有關係。

愛搞機靚仔：供應商提供的算法，手機廠能自行微調參數嗎？會有魔改版嗎？
Hawk Wang：能自行微調，但是不一定願意。針對特定的需求和項目，存在定製版本的可能性，談不上魔改。

愛搞機靚仔：開賣後仍會不停有相機 OTA，是算法廠商依然在維持項目，還是說廠商用的是自研算法，所以能不停更新？
Hawk Wang：持續 OTA，主要是市場反饋有需求導致，對算法廠商和廠商自研都一樣，滿足用戶需求才是關鍵。

愛搞機靚仔：平時 OTA 裡說的改善拍照效果，其實是做了什麼提升/改善？
Hawk Wang：提升點不一定，有的是市場有反饋需要調整，也有可能就是老問題沒解決完成。

愛搞機靚仔：新旗艦發佈後，老旗艦被 OTA 弱化，是真有其事？還是後期調參出 bug 了？Hawk Wang：一般情況下，不太可能在新旗艦發佈後用 OTA 弱化老旗艦，有相當一部分是消費者的心理作用。大部分情況下新旗艦發佈，廠家開發人員根本沒精力去管老項目了。

愛搞機靚仔：安卓錄像一直追不上蘋果的主要原因是什麼？蘋果的 ISP/NPU 強太多？還是蘋果有天頂星算法？
Hawk Wang：原因是多方面的，一方面是，是蘋果整個影像系統全鏈路的整合能力和軟硬一體的把控，而安卓陣營，有些紙面數據其實不差，但是整合能力要弱一些。

另外一方面是安卓陣營前幾年發力點更多的是在拍照上，影片的投入比蘋果要晚一點，拍照上有不少表現階段性領先了蘋果。

算法與AI細節

愛搞機靚仔：有時弱光拍木紋、布紋等不規則紋理，會發現每一張紋理都不太一樣，是因為動用AI貼圖填充/反推缺失細節？還是只是噪點太多，導致常見的算法處理出不同的紋理？Hawk Wang：存在多種情況：

1、噪聲較多，對紋理塗抹導致結果不完全一致
2、算法結果很多時候和輸入信息高度相關，輸入的輕微變換也會導致結果不同
3、確實也存在 AI 反推細節的能力，但是在 AI 反推生成紋理上各個廠家都還比較克制，畢竟太多的失真容易引發消費者反感

愛搞機靚仔：各家發佈會說的畫面語意識別會對不同部分摳圖針對優化，一般支持多少個目標物識別和處理？
Hawk Wang：場景識別類別比較多，一般都 10-30 個類別，但是基於語義進行摳圖優化，一般就比較少了，雖然算法能做的類別會比較多，但是真實有用的其實沒必要太多，一般會針對人像、人臉、皮膚、天空、綠植這些進行特殊處理，更特殊的還有太陽，月亮，但是使用率會比較少

愛搞機靚仔：三星/LG 都和算法供應商有多年合作，2015 年的 Galaxy S6 和 LG G4 用的都是虹軟的算法吧？同代硬件、同代算法，甚至是同一供應商的算法，為何拍照水平依然有明顯優劣之分？
Hawk Wang：算法的效果取決於很多方面，比如硬件水平決定了能上什麼樣的算法配置、算法參數、算法輸入都會有影響，是一個系統工程。即便是同一個供應商的算法，當給它不同質量的輸入時（愛搞機靚仔：樂金手機的棺材板要壓不住了），也會得到不同質量的輸出。

愛搞機靚仔：18 年華為 P20 Pro、Google Night Sight 這些超級夜景算法，和之前的
HDR+ 多幀短快門合成有什麼本質分別嗎？相關算法不是早就有嗎？為何以前只能 1/4 秒且無法保證成片率，但現在又可以了？
Hawk Wang：超級夜景相比過去多幀合成，區別主要有 2 點：

1. 把過去降噪以及 HDR 兩類算法能力做了整合，
2. 算法從過去的 yuv 域和 RGB 域往 RAW 域進行了轉移，當時常規 ISP 完全不具備這些通路，需要廠家比較強的系統能力，而 Google 和華為當時確實更早在這方面下功夫了

愛搞機靚仔：華為在 2020 年 Mate 40 Pro、小米在 21 年的 11 Ultra 之後、vivo 在 21 年的 X70 Pro+之後、OPPO 在今年的 Find X5 Pro之後，高光壓制都有明顯的進步，且特徵相似。是同一家供應商的算法？還是某個算法被業界攻克了？以前做不到是因為算力不夠嗎？
Hawk Wang：不完全是同一個供應商的算法，有三方供應商也有廠家自研的，是大家一起的努力。談不上某個算法突然被業界攻克了，都是積少成多的改進，這些改進和算力的持續提升還是有不少的關係，畢竟速度和功耗也是非常重要的指標，當算力提升後，可以用更加複雜的算法來解決問題。

鏡頭與高像素拍攝

愛搞機靚仔：現在的手機鏡頭的光學分辨率，能餵飽 1 億甚至 2 億像素 CMOS 嗎？以前 Lumia1020 和早期的 IMX586 手機，高像素模式都是霧濛濛的，那是光學分辨率不夠用？還是純粹因為沒算力做常規的處理？
Hawk Wang：目前部分旗艦手機的光學鏡頭的理論光學分辨率基本可以餵飽 1 億像素的
CMOS，但是由於製造工藝等原因，實際上是很難餵飽的；因此光學分辨率不夠用也是導致高像素模式霧濛濛的原因之一。

愛搞機靚仔：現在 Quad-Bayer 傳感器的高像素模式，能穩贏低像素模式下的「搖搖樂」效果嗎？現在手機的高像素模式大都是低像素模式插值，是為了控制成片速度？還是說鏡頭光學素質本身就不夠用，Quad-Bayer 的高像素模式提升太小？
Hawk Wang：Quad-Bayer 的高像素模式不一定能穩贏低像素模式下的「搖搖樂」效果，高像素模式大都是低像素模式插值是由傳感器像素排列的本身設計決定的。

傳感器與記憶體佔用

愛搞機靚仔：18 年三星 Galaxy S9 就有 12 合 1 堆棧，直到現在依然是 10 幾合 1，是已經沒有必要再往上堆？還是出現了瓶頸？（CMOS 速度？內存大小？芯片算力？算法模型？）
Hawk Wang：在 IMX345/S5K2L3 （2018年的三星Galaxy S9）之後，傳感器的迭代方向就不同了，沒有再繼續推加 DRAM 的高速堆棧傳感器。這種高幀率價格昂貴，用於移動設備性價比太低。

愛搞機靚仔：很多旗艦一開相機，就會先吃掉 1-2GBRam，對於常見的 12MP 主攝，夜景算法（最吃內存的是它嗎？）過程中，為生成一張照片，一般會佔用多少內存？
Hawk Wang：夜景算法是內存佔用較高的算法，但不絕對。廠家對算法的內存都有很嚴格的紅線要求，不能明顯影響用戶使用，而且此處計算方法也不太多，拍完照Ram 都會釋放掉，不會長期佔用。很難為這個問題給出一個確定的答案。

愛搞機靚仔：拍照處理太吃Ram導致殺後台的情況，已經從 iPhone 延伸到安卓平台。近幾年有改善的可能性或方向嗎？
Hawk Wang：手機記憶體目前已經非常大，同時算法一般也會有比較嚴格的內存限制，算法本身一般佔用的內存空間並不大。

算法方向

愛搞機靚仔：現在手機拍照的瓶頸在哪裡？幾年前芯片算力還很弱，從搭載的 ISP 就能預測上限。那現在移動芯片 ISP 和 NPU 算力，還是跑拍照算法的瓶頸嗎（所以要外掛自研 ISP？）。瓶頸是 ISP/NPU 性能和功耗？還是算法價格、研發週期問題？
Hawk Wang：拍照類算法，算力瓶頸要弱一些，更多的是在產品定位上，性能功耗和效果的平衡。而在視頻類算法，算力依舊是絕對的瓶頸。
對手機拍照後續的而言，瓶頸反而在應用方向本身，其是否會有新的高價值的應用場景。

愛搞機靚仔：從 Google 跳槽到 Adobe 的 Marc Levoy 表示「堆疊照片的計算攝影方法已經臻於成熟，是時候尋找新的挑戰了」。多幀合成或計算攝影，現在算是下半場嗎？業界有公認的新突破點和方向嗎？
Hawk Wang：
我覺得還有太多潛力和可能性吧，談不上下半場，甚至不是下半場的開始。現在頂多算是上半場開始的結束。

業界公認的新突破點和方向，這個不好說。但我比較看好結合了三維信息的各種成像技術。以前咱們只是把多種圖像幀融合起來，再加上去噪/HDR 等等，得到好的畫質。這都算是計算機視覺中的 low-level image processing 這個賽道。

後來加入了語義信息，比如人像、天空的分割信息，可以針對圖像上的不同區域做不同的處理。但還很少有把三維信息，比如目標的遠近融合到成像和圖像處理過程中的。但實際上在遊戲領域，我們知道為了渲染出一幅漂亮的圖，通常需要知道每個像素點的顏色、亮度、深度、法向量、材質等等信息。

如果我們能把這些計算機圖形學中強調的深度、法向量、材質等信息融合到圖像畫質增強的過程中，想必能夠得到更好的圖像吧。

我對此拭目以待，也相信之後會參與其中。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.163.169 (臺灣)

※ PTT 網址

推

xperiaxz111/18 23:38推

→

bcs11/19 00:00視覺運算現代顯學了

推