Re: [Vtub] AI是不是可以做即時字幕了?
※ 引述《wei115 (社畜)》之銘言:
: 如題
: 像是這部短片 都是日文
: 看攏無
: https://www.youtube.com/watch?v=6Sx13Our0Io
: 他可根據 google廢到笑的日聽字幕
跑了 OpenAI 的語音辨識 (Whisper) 正確率大概9成。
比YT的廢字幕好多了(約6成?)
以下紅字為錯誤、黃字為修正、〇〇代表我聽不懂。
[00:01.300 --> 00:08.540] おけますでさ、なんかキャバクラみたいなの追加されたんだよ
ポケマスっでさ
[00:08.540 --> 00:09.680] え?何それ?
[00:09.680 --> 00:14.000] 言い方悪くない?会話して好感度高めるみたいなやつでしょ?
[00:14.260 --> 00:14.500] そう
[00:14.500 --> 00:16.620] 言い方が悪いよ
[00:16.620 --> 00:18.400] キャバクラみたいなの
[00:18.400 --> 00:20.920] そうやってキャバクラみたいって思ってんだ
[00:20.920 --> 00:23.840] ちゃいちゃんキャバクラ行ったことあんだ?
[00:24.380 --> 00:24.820] ない
[00:24.820 --> 00:28.100] じゃあなんでキャバクラみたいってわかるんですか?
[00:28.840 --> 00:30.340] そう言われてたから
[00:30.340 --> 00:32.540] あ、インターネットの意見を
[00:32.540 --> 00:34.660] そうです、すいません、僕の意思がない
じゃ
[00:34.660 --> 00:37.800] 珍しいね、夜明けですね
弱気
[00:37.800 --> 00:41.480] 弱みを見せてこそ
[00:41.480 --> 00:43.220] キャバクラ行ってみたいな
[00:43.220 --> 00:44.160] えー!
[00:44.480 --> 00:45.100] 行ってみたい!
[00:45.900 --> 00:47.020] 怖い
[00:47.020 --> 00:48.100] 怖くない?
[00:49.020 --> 00:52.700] え、なんか大人のお姉さんになんかね、してもらえたら
[00:52.700 --> 00:54.040] 全部仕事だよ
[漏一句] 〇〇?
[00:55.680 --> 00:56.620] クリアどうした?
やった、〇〇
[00:56.720 --> 00:59.880] 全部仕事
[00:59.880 --> 01:02.300] そんな
[01:02.300 --> 01:03.760] 分かってるよ
[01:03.760 --> 01:07.460] 女の子のお客さん喜んでくれる率高いらしいからね
[漏一句] そんなこと、わかってる。なあ、いいだろう別に
[01:07.460 --> 01:11.380] 夢買ってんだよ
[01:11.380 --> 01:13.520] なんでそんなこと言わなくちゃいけないんだ
[01:13.520 --> 01:16.160] ここで僕ら夢を見させちゃう
[01:16.160 --> 01:17.680] そうだよ
[01:17.680 --> 01:20.840] 父さん、キャバクラ連れてってくれよ
[01:21.360 --> 01:22.200] バカやろ
[01:22.200 --> 01:23.900] 中学生やろお前
[01:23.900 --> 01:26.140] バカやろ
: 大致總結出 這部短片的大綱
: https://i.imgur.com/99Wg6Qs.png
: 使用chatGPT應該可以產生出非常具有可讀性的即時字幕八?
: 目前來看可能價格比較高
: 已一部兩小時的直播來說,token數用api計費應該可以到NT1000?
: 有西恰嗎?
前面大家都有回了。
OpenAI Whisper 的模型有免費公開、也有人寫App or 公開colab。
之後沒意外的話,商業網站的字幕都會更新一波吧。
--
這種程度的正確的要商業化會被噴到翻天吧….
字幕組可以少8成人力吧。商業網站的自動字幕應該可以直接用
那是因為自動字幕會提示"自動生成" 這種就參考用
至於字幕組應該更之前就有再使用字幕轉語音的工具了
而如果要翻譯的話,這差距可能就又更小了
因為翻譯本身要重構語句
看到現在覺得離100%最後那一哩路一直都還是最困難的
有人把步驟都拍成影片惹 有興趣的人自己研究
OpenAI's Whisper ASR Tool with GPU Support: WhisperD
即時字幕teams不是有了?還是是指日文?
語音辨識一直都有,各大OS都有內建的API。 但準確度不好,特別是有背景音樂 + 一般人閒聊 + 非英文。 (一般人指的是非新聞主播、聲優) 測過這個的日文,比蘋果內建的 or YT自動字幕好很多。
放心 現在早就沒全手工這件事了 就算AI錯誤率高 他還
是幫你把字幕卡時間點對好了
光是自動時間軸就已經超省時間了
22
首Po如題 像是這部短片 都是日文 看攏無 但在chatGPT的加持下![[Vtub] AI是不是可以做即時字幕了? [Vtub] AI是不是可以做即時字幕了?](https://img.youtube.com/vi/6Sx13Our0Io/mqdefault.jpg)
4
諸君 晚安安 借串問一下 google的聽取和翻譯系統 在用戶多成這樣子的情況下 還那麼多年了![Re: [Vtub] AI是不是可以做即時字幕了? Re: [Vtub] AI是不是可以做即時字幕了?](https://i.imgur.com/X2y6oMlb.png)
3
即時沒看到,不即時倒是有很方便的工具了。 MacWhisper 上篇推文有提到,強在可以丟沒字幕的mp4影片然後直接吐回.srt或.vtt翻譯好的字幕, 支援100種語言,付費解鎖比較好的翻譯模組。X
欸欸 你應該搞錯問題惹吧? 你要的應該是雙字幕功能吧? 那加個瀏覽器外掛就好 免費易用 YouTube 雙字幕工具,支援下載完整中英對照字幕文件![Re: [Vtub] AI是不是可以做即時字幕了? Re: [Vtub] AI是不是可以做即時字幕了?](https://i.imgur.com/X23OaUJb.png)
2
這個瓶頸我覺得不純然只在 翻譯 的部分,語音辨識也有進步空間 就以 英文發音的影片開英文字幕 來說, Youtube很早就有自動cc的機能,但這機能僅對「聽得懂一定程度英文的人」堪用。 因為語音辨識的結果雖然大致上正確,但其實出現辨識錯誤的機率並沒有到真的很低![Re: [Vtub] AI是不是可以做即時字幕了? Re: [Vtub] AI是不是可以做即時字幕了?](https://i.imgur.com/NjvE6bOb.jpg)
2
正巧最近有看到自動上字幕的頻道,結論是同音字跟錯別字還有慣用詞。絕對會出現混淆問 題。 這個就是標準自動上字幕的作品,每個人名【黃巢】都被置換成【皇朝】。然後故事主角到 底是哪個德禎?德真?德貞?德什麼的啦?![Re: [Vtub] AI是不是可以做即時字幕了? Re: [Vtub] AI是不是可以做即時字幕了?](https://img.youtube.com/vi/7jR1ksY5hF8/mqdefault.jpg)
27
[閒聊] 斉藤慎二小時候被霸凌小学3年生から中学生の頃まで、いじめを受けていました。生きていることがつらくて 、絶望しかなくて、首をくくろうとしたこともありました。だから今、苦しくて悩んで いる君に、「この先、楽しいことが待っている。頑張ろう」なんて軽々しくは言えませ ん。 小3の頃、クラスで一番小さくて「チビ」とからかわれるようになりました。上履き![[閒聊] 斉藤慎二小時候被霸凌 [閒聊] 斉藤慎二小時候被霸凌](https://s.yimg.jp/images/news-web/all/images/ogp_default.png)
8
[Blog] 佐々木美玲 20200416原文: やっぱり寒くないですか? 果然不冷嗎? こんばんは![[Blog] 佐々木美玲 20200416 [Blog] 佐々木美玲 20200416](https://i.imgur.com/cMlovE0b.jpg)
8
[軟體] 讓你的影片,添加AI字幕(MacWhisper)最近很紅的ChatGPT,是由OpenAI製作的。 而OpenAI還有製作「免費離線轉字幕」軟體,叫Whisper。 (要打指令,不利新手使用) 以Whisper為核心的圖形介面軟體, Mac版,叫MacWhisper,目前最好用!![[軟體] 讓你的影片,添加AI字幕(MacWhisper) [軟體] 讓你的影片,添加AI字幕(MacWhisper)](https://i.imgur.com/5pZVMl3b.png)
7
[歌詞] 君に叱られた君に叱られた 被你罵了 作詞:秋元康 作曲:youth case![[歌詞] 君に叱られた [歌詞] 君に叱られた](https://img.youtube.com/vi/1_oWkusqP4Q/mqdefault.jpg)
Re: [問卦] 口說講解影片是不是快被AI完全取代了?阿肥外商碼農阿肥啦!認真說,這幾年口說上字幕甚至翻譯,還有有字幕上語音這幾年都獲 得不錯的進展,包含openAI、Google、Amazon、Meta實驗室都有不錯的產出,而且這些都是 依靠當前所謂的多模態零樣本學習的大力進步,很多轉換錯誤或是機器音都減小很多,不 過偶爾還是會有出槌需要人工修正的部分。 所謂的多模態零樣本其實就是換一個思維過往很多工作需要大量標注工跟資料工程前處理來