GLOCAL 2025 Vol.25(Special edition)
52/67
院生の研究紹介院生の研究紹介院生の研究紹介院生の研究紹介50に変換する数学的手法であり、音声信号の分析に広く用いられている。この変換により、音声に含まれる各周波数成分の強度を可視化することが可能となる。音階の抽出は、フーリエ変換後のスペクトルデータから最も強度の高い周波数成分を特定し、その周波数に最も近い音階を判定することで行う。これにより、環境音や音楽の音階情報をオノマトペ生成に反映させることが可能となる。おわりに 音声認識の分野では、AIは人間の音声のみを対象とし、環境音や効果音などは処理できないという見解が強かった。しかし、本研究は、そうした固定観念を覆し、AIによる音声処理の範囲を大きく拡張する可能性を模索している。本研究の試みは、音声認識AIの新たな可能性を示すものであり、引き続きこの分野の発展に貢献できるよう、さらなる研究を進めて行きたい。引用文献A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust speech recognition via large-scale weak supervision,”Tech. Rep., OpenAI, 2022.A. Baevski, Y. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self-supervised learning of speech representations,” in Advances in Neural Information Processing Systems (NeurIPS), 2020.はじめに 近年、音声認識技術と人工知能(AI)の発展により、音声言語処理の研究が著しく進展している。本研究では、高度化した音声処理システムによる未学習の音の文字化に焦点を当てた。このような音声処理の高度化は、動画コンテンツの文字化した音からの検索を可能にするなど、聴覚情報のバリアフリー化に大きな可能性を秘めている。 検討素材として、Whisperモデルのファインチューニングと日本語音声の特徴抽出を対象とし、現在の推論中心のシステムでは「unknown」と出力してしまう音の強制的な文字化がどのように実現できるか考察した。音声認識AIの概要 音声認識AIとは、人間の音声を自動的にテキストに変換する技術である。近年では、深層学習の発展により、音声認識の精度が飛躍的に向上している。 Whisperは、OpenAIが開発した音声認識モデルである。このモデルは、大規模な多言語・多タスクのデータセットで訓練されており、様々な言語や話者に対して高い認識精度を示す。【OpenAI2022】ファインチューニングの手法 ファインチューニングとは、事前に学習済みの大規模なモデルを、特定のタスクや領域に適応させるために再学習させる手法である。本研究では、Whisperモデルに対して日本語のオノマトペに特化したファインチューニングを行った。具体的には、日本語の擬音語・擬態語に加えて「unknown」に対応させるための音素データセットを用意し、モデルの出力層を調整しながら再学習を行った。音声認識AIの開発 本研究では、独自に用意した日本語単語の発音データを用いてファインチューニングを行い、日本語に特化したモデルを開発した。また、クラウドベースのGoogle Colaboratory環境を活用することで、大規模なモデルの学習や実験を効率的に行った。この手法により、入力された音声を日本語の音素に分解することが可能となった。音素とは、言語において意味の弁別に関与する最小の音声単位であり、日本語では約50種類存在する。本モデルは、これらの音素を正確に識別し、オノマトペの生成に活用する。リアルタイム処理と音階抽出の試み 現在、入力された音声データをフーリエ変換し、スペクトルの最大成分を抽出することで音階を導出する機能の実装を進めている。フーリエ変換とは、時間領域の信号を周波数領域音声認識AIによる音の文字化 国際人間学研究科 言語文化専攻 博士前期課程1年藤吉 宙(FUJIYOSHI Sora)1999年アメリカピッツバーグ生まれ。2023年名古屋商科大学を卒業後、2024年4月中部大学国際人間学研究科 言語文化専攻に入学。現在、音の言語化をテーマに修士論文を執筆中であり、主に音声認識AIを中心に音の文字化について研究している。
元のページ
../index.html#52