ブログBlog

音声入力の野望

2023年1月28日

最強寒波到来という事で、ニュースやSNSでは阿鼻叫喚の様子が見て取れますが

いまのところ私の周りでは、事務所の水道が凍ってトイレが使えなくなったことや

出社時に車のフロントガラスがガッチガチで焦った事くらい、いまいち地味ーな印象の被害ばかりです。

 

昨夜も天気予報では雪が降ると言われていましたが……雨が降っただけですね。

いや、別に降って欲しいわけじゃないんですけどね。面倒事が増えるだけですし。

 

 

 

 

私たち㈱サトーが日々こなしているルーティンワークのひとつとして、在庫確認という物があります。

 

ヤード内に数多あるレンタル機械が、システム上の在庫と合致しているかどうかであったり

盗難や紛失等の事件が発生していないかを確認する為にも、これは毎日夕方、17~18時あたりに行われています。

(早過ぎたらそのあと返ってきた機械が見落とされちゃいますからね)

 

チェックリストを挟んだクリップボードとボールペンを持って、ヤード内を隅々までチェックするわけですが

これだと両手が塞がっていてどうにも具合が悪いんですよね。

時間的に暗いので懐中電灯を持ちたかったり、雨が降ったら傘を差したかったりするわけですが

人間の手は2本しかないですからね。

 

 

で、考えたんですけど

スマホで音声を聴きとって文字を出力させるアプリを動かして、それに向かって在庫状況を読み上げて

出来上がったテキストをExcelに突っ込んで自動で表に……みたいな事って、出来ないんすかね?

 

色々調べていたら、会社で使用しているMicrosoft 365(officeソフトのサブスク版みたいな奴ですね)が最近音声入力に対応したらしく

スマホ版アプリで利用できるようです。

やってみないと分かりませんが、もしかしてリアルタイムなエクセルの編集もできるんですかね???

 

既に利用中のアプリなんで、これなら余計なお金をかけることなく試せますね。

 

 

音声入力の手段は手に入ったので、後はどうやって喋るか、ですね。

在庫確認はサトーでの呼称と管理番号で管理しているので、ふつうに読み上げると

「0.12バックホー Y-80(読:コンマイチニーバックホー ワイハチジュウ)」となるわけですが

音声認識アプリがテキスト化した際に間違いがないようにしないといけません。

「ゼロイチニ バックホー ワイ ハチジュウ」こんな感じで統一して、ハキハキと喋ればいけるかな、と。

これが変換されて『012 バックホー Y 80』となれば完璧ですね。

 

という事で、実験。

用意した台本はこちらです

『ザイコヒョウ オンセイニュウリョクテスト イチガツニジュウサンニチ ザイコカクニン』

(在庫表 音声入力テスト 1月23日 在庫確認)

『ゼロイチニ バックホー ワイ ハチジュウ  ワイ ナナイチ』

(012 バックホー Y80 Y71)

『ザイコカクニンシュウリョウ』

(在庫確認終了)

 

 

で、これを読み上げてテキスト出力した結果がこちら。

 

 

 

 

 

 

 

 

 

 

 

いぇい80。

 

 

なんか思ったより残念な結果ですね。

もう少し、成功に近い失敗になるものかと思っていたのですが……

 

もう一度言い直したらちゃんとY80になってくれましたが、この精度はちょっと厳しいですね。

 

手ぶらで在庫確認が目標で、最終的には

ポケットに入れたスマホ(ピンマイクみたいなのを繋げてもいいですね)に向かって発話する予定なので、誤認識は可能な限り無くしたいところです。

 

 

在庫表や在庫確認といった意味のある単語はしっかり漢字にも変換できている一方で

ワイがいぇいになってしまったりナナイチを数字の7と漢数字の一にしてしまうのは

意味のある単語として認識できないからでしょうか?

ハチジュウはしっかり80と認識可能なあたり、この推理は多分合っていると思います。

 

なんだかおもしろくなってきました。

普段使っている呼称をアプリがしっかり認識できるものに置き換えて、

アプリが出力するテキストに誤差が出ないようにするのが今後の課題ですね。

 

 

という事で、今後もこの『音声入力で楽して在庫確認しよう計画』は挑戦を続けていきたいと思っています。

ブログネタにもなりますし……。

 

それでは。

このページのトップへ