平凡

平凡

AI文字起こし、何使う!? どう使う!? 問題

f:id:hei_bon:20220405002921j:plain

こんにちは。平凡です。

紙媒体を中心として、商業ライターをやっております。

ライターを日々悩ませる文字起こし! ライター以外でも、議事録作成だるいよ~となっている人も多いであろう文字起こし!

皆さんどうしていますか?

わたしは最近、AI文字起こしを使っています。自動で音声データを文字にしてくれるサービスですね。

今日はわたしが使った範囲での雑感を記していこうと思います。

使い方が偏っているのですが、どなたかの参考になれば。

感想とあわせて、各サービスの使用時期も書いておきます。なぜなら、AI文字起こしは日進月歩。データの蓄積で、より自然な起こしが可能になっている可能性があるからです。

 

利用したサービス

1.RIMO

「日本語に特化した文字起こし」サービス。運営は国内企業で、サービス名と同名のRIMO社。2020年9月リリース。わたしは2021年5月~10月に合計100分ほど利用。

特徴は、文字起こしにかなり正確な句読点が入ること。読み返すのはかなり楽。

魅力は初回無料枠が60分あること。この60分は、リアルタイムの文字起こしではなく、音声データのアップロードもOK(Nottaの無料枠はリアルタイム起こしのみ)。

スポット利用は60分以降は30秒/20円。たとえば20分のインタビューなら800円。40分なら1600円。

人に依頼するよりはずっと安いですが、人力とはクオリティが違うので一概に比較はできません。

定額利用は月10万円(音声データは40時間分)。編プロなど、会社契約が前提かなというお値段。

https://rimo.app/

 

2.Notta

こちらは中国は深センにあるLangogo Technology Co., LTD.が運営。104言語に対応。サービス開始時期不明ですが、会社は2018年設立。

定額制のみで、1か月約883円(年払いの場合。月払いだと約1497円)/月1800分(30時間)*1

リーズナブルさが魅力です。

わたしは2021年12月から2022年4月現在まで利用し続けています。

Nottaも無料お試しがあるのですが、こちらは「音声データをアップロードする」形には対応しておらず、リアルタイム文字起こしのみ。つまり、会議や取材のときにアプリ起動して起こす、というタイプですね。

https://www.notta.ai/

 

3.Group Transcribe

Microsoftのアプリ。こちらはリアルタイム文字起こしサービス。無料。一時期、取材中に回していましたが、RIMOやNottaを使い始めてから使わなくなりました。リアルタイムの文字起こし「だけ」をやりたいならいいサービスだと思います。無料だと30分1セットで切れるので、その点注意が必要。2021年3月~5月ぐらいまで使っていました。

 

それぞれ、精度はどうですか?

で、これらを比較できれば理想なのですが……。

個人的な感想としては、文字起こしの精度は、RIMOもNottaも(そしてGroup Transcribeも)あまり変わらないように思います。

RIMOはたしかに句読点をかなり正確に入れてくれます。ただ、使ってみてそれがすごく便利に感じたかというとそうでもなく。

AI文字起こしの紹介記事では、どのサービスについても、「これは文字起こしを変える!」と書いてあることが多いです。たしかに昔と比べれば夢のような精度ですし、実用レベルに達しつつあります。が、わたしは単純なので、そういった見出しを見ると「めんどうな文字起こしから解放される!」とか思っちゃうんですね。

使ってみての実感では、「めちゃくちゃ便利だし進歩しているけれど、修正なしの利用は難しい」です。

 

AI文字起こしの精度はそもそも音源に左右されがち

AI文字起こしがどれぐらい正確に起こしてくれるかは、「発言者とその発話状態」によるところが大きいです。アナウンサーや声優のインタビュー音源と、一般人の座談会、会議では精度は大きく異なります。

「発音が命の職業の人」にインタビューした音源だと、インタビュー相手の発言の文字起こしの精度と、わたしの発言の文字起こしの精度がまっったく異なります。

それと、発音の違いももちろんですが、「聞いて答える」形式のインタビューはもともと話される言葉が「書き言葉」に近く、座談会や会議では「会話」に近いので、そのあたりでも精度は変わってきます。

テスト的に夫と会話して、リアルタイム起こしを何社か比較したことがあるのですが、やはり力が入るというか、通常の会話とは違ってしまうらしく……。「実際に使用したときよりも、テストのほうがずっと精度が高く見える」傾向があります。工夫次第ですが。

 

AI文字起こしだから修正がやりやすい部分、やりづらい部分

文字起こしした後、文章に不完全な部分がある(これは多かれ少なかれ、絶対にあります)場合、必要あれば聞きながら修正することになります。

 

AI文字起こしならではの「やりづらい部分」は、人間の発想を超えた変換をしてくること。そういった誤変換は、インタビューの記憶が鮮明なうちでも、一読しただけで修正していくのは難しいです。たとえば、とある音声起こしにあった「ちょっと中身仕上がりながら」。これは、実際は「ちょっと何か召し上がりながら」と言っていた部分。

 

次に「やりやすい部分」を。RIMOもNottaも、音源をアップロードしてテキスト化したあとは、テキストの一部分をクリックすると、その部分の音声だけを聞くことができるようになります。なので、「発想を超えた誤変換」がある場合は、その箇所だけを聞いて修正していくことができます。これはすごく便利……なのですが、サイト上では文字修正がやりづらい。なんとなく、「起こしたものをがっつり修正する」前提ではないのかな、と感じます。

 

AI文字起こしで気をつけたいこと

めったにないですが、ひとつは数字の間違え。「なんでその数字とこの数字を間違えるの?」という経験があるので、数字がある箇所は聞き直す、その場でメモを取って照合するなど気をつけることをおすすめします。

もうひとつ、これはインタビューする人向けですが、「あ~」とか「ええと」とかの省略。とくにNottaはこういった「いらない発話」をガンガン削るときと、残すときの振れ幅が大きいです。

わたしの場合ですが、インタビューでは、こういった発話を完全に削られるとちょっと困るのです。「あ~」とか「ええと」とか、そのまま原稿に残すことはありません。とはいえ、迷いのニュアンスをどこかに入れたいなと思ったときは、参考にしているんですね。

それと、これもまれですが、「あ~」とか「ええと」がほぼ完全に削られているケースでは、「必要な発話部分」の一部が削られていたこともありました。何しろ「自動文字起こし」なので、そのあたりはちょっと注意が必要です。

 

とはいえ便利です、AI起こし

いろいろ書きましたが、AI文字起こしはとても便利です。いまではNottaは必需品になりました。

インタビュー音源の場合、運がよければ(体感的に)7~8割程度完成した文字起こしを超スピードで手に入れることができます。「???」という部分が一部にあったとしても、一読すればかなり正確な内容を把握できます。

「ある製品製作に関わったスタッフに次々とインタビューする。明日は別の人のインタビューがあるので、今日やったインタビュー内容をおさらいしたい、編集さんとテキストを共有したい」ときなんかは本当に便利です。

それと、あまり精度を問わないケース。なんとなく会議の流れが追えればOKな場合は、AI文字起こしはかなり便利だと思います。

1時間程度の音声起こしが5~10分で上がってくるのは驚異です。Nottaはたまに時間かかるときがありますので、そういうときはやり直しましょう。

 

自分の使い方

わたしのAI文字起こしの使い方は……。「完璧に文字に起こしたい」ニュアンス重視のインタビューの場合、以下の流れでやっています。無駄が多いので、そこまでニュアンス重視でなければ、気になるところをNotta上で修正するぐらいです。

 

Nottaで文字に起こす

テキストをSpeechnotes(Google音声認識を使った音声入力メモアプリ)に貼り付け

Okoshiyasu(音声再生ソフト)で音声を再生しながら、音声認識とキーボード両方を使いながら修正。Okoshiyasuを使うのは、巻き戻しと再生停止にショートカットキーまたはフッドペダルを使いたいから。

 

NottaやRIMOのサイト上でも、再生&巻き戻しのキー割り振りができれば、こんなに無駄しなくてよいのですが……。できるのでしょうか。

 

 

そして、最近は、Web版Wordのトランスクリプト機能での文字起こしが話題です。精度もかなりのものと聞いているので、試してみたいものです。

それにしても、この仕事始めたとき、文字起こしは「テープ起こし」でした。カセットテープレコーダー(テレコ)で録音して、それを聞いていました。それがいまやAI文字起こし! テクノロジーの進歩はめざましく、ありがたいものです。昔はあの小さなカセットレコーダーの再生/停止ボタンを物理的に押していたのですから……。

というわけで、今日はAI文字起こしのわたしなりのレビューを書いてみました。

皆さん、「自分は文字起こし、こうやってるよ!」ってな方法があったら教えてください!

 

 

写真は《ワイヤレスヘッドフォンのある生活のフリー素材 https://www.pakutaso.com/20170325088post-10797.html

*1:本来はドル表記なので、価格に「約」がついています