広告
自動で文字起こしができるAmazon Transcribe
Amazon Transcribeとは、機械学習を用いて文字起こしを行えるサービスです。
11月21日より日本語も対応したとのことで、すげー時代になったもんだなと肯いていたら、Sangminさんのnoteを読んで衝撃を受けました。
何が驚きって、その安さとスピードとクオリティ。
- 60分音声分の文字起こしが150円ぽっきり
- 完成時間は約20分
- 英語ならほぼ完璧な仕上がり
- 日本語なら漢字変換もしてくれる
- 文節ごとにタイムスタンプあり
文字起こしをしたことがある人、発注したことがある人ならお分かりいただけると思うんだが、あり得ないスピードと金額です。
大方の「自動文字起こしサービス」は、そもそも音声をしっかり認識する時点で躓くレベルなのにここまでやり切るとは。
こりゃやってみるしかないと早速利用してみました。
Amazon Transcribeの使い方自体はSangminさんのnoteが分かりやすいので是非ご一読を!
IT初心者の私からは、
①「AWS」と「S3」の時点で固まった素人が、素人の言語でお伝え
②実際に日本語文字起こしを使ってみた感想
をお送りするよ!!
AWSとは? S3って??
ここで躓いちゃったんですよ。(挫折が早い)
本家がちゃんと説明してくれてるんだけど、日本語なのに読めないのが素人なんだ察してくれ!
本質の理解は重要じゃないので、ざっくりいきますね。
- AWS=Amazonが提供しているウェブサービス各種(Amazon Web Servicesの略)
- S3=その中の、クラウドストレージにあたるサービスの名称
企業を対象に〜〜と書いてありますが、個人利用も問題なしです。
AWSとS3のざっくり理解
例えると、「AWS(Amazonのウェブサービス)を使いたい!」というのは、「MicrosoftのOfficeを使いたい!」という発言に近いです。
Office使いたいってあなた、Excelで表計算したいの? Wordで文章作成の必要があるの? PowerPointでプレゼンする? それともメール管理?
…と、何をしたいかによって、活用するオフィスソフトが全然違いますよね。
この場合の、”Excel”とか”Word”とかにあたるものが、「S3」になります。
AWSの中の、いち提供サービスなんですね!
で、「S3」は何ができるサービスなのかというと、「クラウドストレージ」なんですよ。
Dropboxとか、Googleドライブとか、OneDriveとか、あの辺の仲間ですね。
月間で定量の保管場所をレンタルして、ネット上にデータを保存しておけます。
取り出しも自由。
そんで、「いざ文字起こしをするぞ!」って時に、「S3」に保管してある音声データを引っ張ってきて、Amazon Transcribeが文字起こし実作業をしてくれるのだ。
同じAmazonのサービス同士だから保管場所が指定されてるんだね! 別の場所にあると迷子になっちゃうもんね!
くらいの雑なゆるふわ理解をしておきましょう。
※正確さより分かりやすさ最優先の表現にしてますが、致命的な誤りを犯していたらご指摘願います!
AWSのアカウントを作成して、S3を使えるようにする
というわけで、Amazon Transcribeを使うために、
①AWSのアカウント作成
②S3を使えるようにする
工程が必要になるわけです。
①AWSのアカウントを作成
下記からアカウント作成だ!
- 名前や住所は英語表記だよ
- 住所の英語表記は、変換サイトを使うと楽ちんだよ
- 個人利用OK、アカウント作成だけなら無料だから安心してね
②S3を使えるようにする
- 「今すぐAmazon S3を始める」をクリック
- あとは流れに身を任せよう
- 最後の方でセキュリティ関連のチェック項目が出てくるけど、デフォルトのままいじらず設定完了で問題なかったよ
- 2番目と3番目はチェックすると追加料金がかかるみたいだよ
料金体系の解説は下記の2記事がまとまっていたものの、こちとら丁寧なまとめも理解が覚束ない素人なのだ。
文字起こしのためだけにアカウントを解説した人向けに、ざっくり素人の言語に翻訳+補足しておくね。
- 5GBまでのデータ保管なら、利用開始から1年間無料だよ。
- 従量課金制だよ。もっと保存容量増やしたい場合は、課金してね。
- 5GBで1ドル、50GBで5ドルのお値段だよ。
- Amazon Transcribeを使うために個人利用目的で開設したなら、「リクエスト」や「データ転送」の上限は気にしなくて大丈夫だよ。1ヶ月に1000回以上もアップロードしたりダウンロードしたりしないだろ??
- アップロードする分には、1ファイルの容量はどんなに大きくても無料だよ。(5GB越えちゃうとそもそも月額料金越えちゃうので注意ね)
- でもダウンロードするときには、1ファイルの容量が1GB以上だと課金されちゃうから注意してね。(数十円もしないけど)
- と言いつつ、AWS内でのやり取りなら、データ容量大きくても転送は無料なのだ!(2GBの音声をアップロードし、それをAmazon Transcribeで書き起こす分には、データ転送で課金されることはないみたいだよ)
- 1年間無料で使いたいなら、文字起こし済みの音源はこまめに削除しておくのがいいんじゃない?
- 画像とか他のデータ保管とかは、まあ、ややこしいから慣れてる別のサービス使うのを推奨するかな。(みゆきち主観)
③満を辞してAmazon Transcribeを利用
ここまでくれば、あとはSangminさんのnoteを参照にして文字起こし開始できるよ!
1点だけ素人のつまずきポイントを補足すると、「ジョブ作成」における「Input file location on S3」には、S3にアップロードした音声のURLが必要になるよ!
画面右下、モザイクかけてる「入力URL」の部分や。
アップロードした時に自動で個別URLが作られているから、それをコピペして貼り付けるのだ!
やったぜ!! これで今日から文字起こし祭りだ!!
日本語版文字起こしを使ってみた感想
十分すぎる、の一言に尽きます。
今回、私は自分が開催した勉強会の録音音声の文字起こしを行いました。
手順としてはこんな感じです。(所要時間:1時間ちょい)
- AWSのアカウント作成
- S3の登録
- 有料Zoomで録音した勉強会音声をPCにDL
- m4a→mp3に変換(macやねん)
- 変換後音声をS3にアップロード
- 後はnoteの通りに
- 60分音声が15分で文字起こし完成
確かに「そのまま」使うには微妙かもしれないが、多少の手直しで済むレベルなんだよね、恐ろしいことに。
私は来年2月末に出産予定の妊婦であるため、時間を自由にできる年内中に講義形式の勉強会を複数行いアウトプットを重ねておきたかったんですよ。
来年は今の時期に音声で大量に流した情報を素材にして、細切れ時間でも作業可能なテキストを中心に、ブログ記事やnote執筆に比重を移そうと考えていたんですね。
クラウドワークスあたりで文字起こしを依頼して、切り貼りしながら、コンテンツを編集していこうと考えてました。
それが年内にこれですよ。まじかよ。世の中の変化はどうなってるんだ。
確かに英語と比較すると精度は落ちているのだろうし、ケバ取りも自分でしなきゃだし、文意通じない部分多いし、このまま外には出せない内容です。
でも、話したの私本人だからさ…。
あとはこの文章見ながら、内容の再現テキスト作れちゃうんだよね…。
必要十分な出来なんだよね…。
しかも納品15分でした。鬼かよ。
ご丁寧に文節ごとにタイムスタンプ押してあるから(正直引いた)、どうしても思い出せなくてもすぐに確認できちゃうし。
そんで機械学習は蓄積が増えれば増えるほど精度が上がるし、なんなら「専門用語とか聞き取りにくいやつあれば先に教えてね☆」って項目が既に設置されてたし、なんかもう現代文明すげーな、と思います。
個人の範囲ではありますが、活用しながら精度向上に寄与できればと思う所存です。
時代を感じて欲しい
初心者には最初にゼロからアカウント作成するのが少し重いかもしれませんが、是非、ご自身で体感してみることをお勧めします。
便利さはもちろん、この衝撃的な体験を通して、感じることが多いと思うのです。
広告