使う人と場面に最適化した高精度な音声認識AI

2021.06.08

人の会話は極めてあいまいだ。また、人間は驚くほど正確に「会話」とその他の「音」を区別して認識している。そのため、急速に進化が進むAIといえども、音声認識の分野ではまだまだ普及は限定的だ。AppleやGoogleなどITの巨人たちがサービスを提供しているが、ユーザーの感覚としては、物足りなさを感じる場面も少なくないだろう。

そんななか、独自の技術を確立し、サービス展開を進めるのがdigamoだ。同社の技術はもともと、障がいを持つ人がパソコンで意思疎通をするために、声で入力できるように開発された。口や喉の筋肉が不自由で発音が不鮮明でも声を認識できるように開発されたため、AIの音声認識力は非常に高い。さらに、使用する人の声を事前に登録しておくことで、その人の声の調子や癖をAIが学習。さらに高い精度での認識を可能にしている。

「一般的な音声認識は、膨大な声や言葉のパターンをAIに学習させることで成り立っています。そうすることで8割ほどの会話はカバーできるようになるのですが、いつもと違う話し方や声の調子になると認識できなくなります。例外的な2割をカバーできないのです。対する当社の技術は、ある特定の人の声や言葉について限りなく10割をカバーしようというもの。広く浅くとは逆で、狭いですが深く、個人に最適化させた技術です」。

代表の早石氏は、ロボットとAI関連の開発において20年以上の経験を持つ。

同社ではこの技術を、工場や農業などでの生産性向上に役立つツールとして提供する計画だ。これらの仕事の現場では、作業のために「両手がふさがる」場面が多い。そこで、音声を入力デバイスとするのだ。また認識した音声は即座にテキスト化できる。この強みをいかし、「話すだけで業務日誌をリアルタイムで記入する」という仕組みを実現した。1日の仕事が終わってから、記憶を頼りにあいまいな日誌をつけるという非効率な仕事から開放されるのだ。

「当社は『はんだ付けからAIまで』を強みにしています。この技術でも、音声を認識するデバイスを独自開発し、腕時計タイプや首からぶら下げるタイプなど、小型化に成功しました。AIの“頭脳”はクラウドではなくチップにしたので、ネットも必要ありません。また、工場などの使用現場に合わせて頻出する言葉を学ばせています。これらの『最適化』により、想定した使用現場で最高のパフォーマンスを発揮する技術になっています」。

コア技術の1つである計数AIは物体の数を瞬時に数えるほか、ARソリューションと連携して作業の最適化を提案する。

早石氏は同社のほかに、株式会社計数技研というAIやロボットの技術開発を行う会社を率いている。計数技研では人がランダムに動き回る倉庫で働くAI自動搬送ロボットや、人の体の動きをキャプチャーして精密に再現するロボット、人の脳波で操作するロボットなどを開発している。これらの技術とdigamoの技術を組み合わせ、エッセンシャルワークを遠隔で実現すること、さらに「人間にはできないことをロボットが行う」ことをめざしている。
「将来は火星にロボットを送り込みます。それが私たちの目標です」。