J-Moshi(ジェイ・モシ)は、名古屋大学大学院情報学研究科の研究チームが開発した、日本語対応のフルデュプレックス音声対話システムです。このシステムは、人間同士の自然な会話に見られる発話の重なりや相槌など、同時双方向的な特徴をモデル化することを目指しています。

従来の音声対話システムは、ユーザーの発話が終わるまでAIが待機する半二重方式が一般的でしたが、J-Moshiは「話す」と「聞く」を同時に行うフルデュプレックス対話能力を備えており、ユーザーの発話中に相槌を打ったり、補足的な質問を行ったりすることが可能です。

技術的には、英語の音声対話システム「Moshi」を基盤としており、モデルサイズは7Bと軽量で、低コストでの運用が可能です。また、音声合成による拡張データを活用することで、より自然な日本語の対話を実現しています。

J-Moshiの登場により、日本語音声AIの分野における新たな可能性が広がり、今後の応用が期待されています。

https://nu-dialogue.github.io/j-moshi/