PTT評價

Re: [Vtub] AI是不是可以做即時字幕了?

看板C_Chat標題Re: [Vtub] AI是不是可以做即時字幕了?作者
kinda
(天天)
時間推噓 4 推:4 噓:0 →:10

※ 引述《wei115 (社畜)》之銘言:
: 如題
: 像是這部短片 都是日文
: 看攏無
: https://www.youtube.com/watch?v=6Sx13Our0Io
: 但在chatGPT的加持下
: 他可根據 google廢到笑的日聽字幕
跑了 OpenAI 的語音辨識 (Whisper) 正確率大概9成。
比YT的廢字幕好多了(約6成?)

以下紅字為錯誤黃字為修正、〇〇代表我聽不懂。

[00:01.300 --> 00:08.540] おけますでさ、なんかキャバクラみたいなの追加されたんだよ
ポケマスっでさ
[00:08.540 --> 00:09.680] え?何それ?
[00:09.680 --> 00:14.000] 言い方悪くない?会話して好感度高めるみたいなやつでしょ?
[00:14.260 --> 00:14.500] そう
[00:14.500 --> 00:16.620] 言い方が悪いよ
[00:16.620 --> 00:18.400] キャバクラみたいなの
[00:18.400 --> 00:20.920] そうやってキャバクラみたいって思ってんだ
[00:20.920 --> 00:23.840] ちゃいちゃんキャバクラ行ったことあんだ?
[00:24.380 --> 00:24.820] ない
[00:24.820 --> 00:28.100] じゃあなんでキャバクラみたいってわかるんですか?
[00:28.840 --> 00:30.340] そう言われてたから
[00:30.340 --> 00:32.540] あ、インターネットの意見を
[00:32.540 --> 00:34.660] そうです、すいません、僕の意思ない
じゃ
[00:34.660 --> 00:37.800] 珍しいね、夜明けですね
                  弱気
[00:37.800 --> 00:41.480] 弱みを見せてこそ
[00:41.480 --> 00:43.220] キャバクラ行ってみたいな
[00:43.220 --> 00:44.160] えー!
[00:44.480 --> 00:45.100] 行ってみたい!
[00:45.900 --> 00:47.020] 怖い
[00:47.020 --> 00:48.100] 怖くない?
[00:49.020 --> 00:52.700] え、なんか大人のお姉さんになんかね、してもらえたら
[00:52.700 --> 00:54.040] 全部仕事だよ
[漏一句] 〇〇?
[00:55.680 --> 00:56.620] クリアどうした?
             やった、〇〇
[00:56.720 --> 00:59.880] 全部仕事
[00:59.880 --> 01:02.300] そんな
[01:02.300 --> 01:03.760] 分かってるよ
[01:03.760 --> 01:07.460] 女の子のお客さん喜んでくれる率高いらしいからね
[漏一句] そんなこと、わかってる。なあ、いいだろう別に
[01:07.460 --> 01:11.380] 夢買ってんだよ
[01:11.380 --> 01:13.520] なんでそんなこと言わなくちゃいけないんだ
[01:13.520 --> 01:16.160] ここで僕ら夢を見させちゃう
[01:16.160 --> 01:17.680] そうだよ
[01:17.680 --> 01:20.840] 父さん、キャバクラ連れてってくれよ
[01:21.360 --> 01:22.200] バカやろ
[01:22.200 --> 01:23.900] 中学生やろお前
[01:23.900 --> 01:26.140] バカやろ

: 大致總結出 這部短片的大綱
: https://i.imgur.com/99Wg6Qs.png

: 這樣想想,如果結合語音模組
: 使用chatGPT應該可以產生出非常具有可讀性的即時字幕八?
: 目前來看可能價格比較高
: 已一部兩小時的直播來說,token數用api計費應該可以到NT1000?
: 有西恰嗎?
前面大家都有回了。
OpenAI Whisper 的模型有免費公開、也有人寫App or 公開colab。
之後沒意外的話,商業網站的字幕都會更新一波吧。

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣)
PTT 網址

gasgoose03/24 21:39這種程度的正確的要商業化會被噴到翻天吧….

kinda03/24 21:43字幕組可以少8成人力吧。商業網站的自動字幕應該可以直接用

arrenwu03/24 21:45那是因為自動字幕會提示"自動生成" 這種就參考用

arrenwu03/24 21:46至於字幕組應該更之前就有再使用字幕轉語音的工具了

arrenwu03/24 21:46而如果要翻譯的話,這差距可能就又更小了

arrenwu03/24 21:47因為翻譯本身要重構語句

kimokimocom03/24 21:48看到現在覺得離100%最後那一哩路一直都還是最困難的

deepdish03/24 21:48https://youtu.be/xE-tmu0OlGA

deepdish03/24 21:48有人把步驟都拍成影片惹 有興趣的人自己研究

deepdish03/24 21:49OpenAI's Whisper ASR Tool with GPU Support: WhisperD

Lhmstu03/24 21:49即時字幕teams不是有了?還是是指日文?

語音辨識一直都有,各大OS都有內建的API。 但準確度不好,特別是有背景音樂 + 一般人閒聊 + 非英文。 (一般人指的是非新聞主播、聲優) 測過這個的日文,比蘋果內建的 or YT自動字幕好很多。

philip8150103/24 21:53放心 現在早就沒全手工這件事了 就算AI錯誤率高 他還

philip8150103/24 21:53是幫你把字幕卡時間點對好了

labbat03/24 22:07光是自動時間軸就已經超省時間了

※ 編輯: kinda (122.116.34.251 臺灣), 03/24/2023 22:30:56