「自然に喋る」「ちゃんと喋る」の定義は人それぞれなので、要求がどこにあるかですよね。私のボイロに対する要求はエロゲ声優さんみたいに芸術的に「演技」してくれることなんですよ。
多分、アニメファンが多いボカロPが求めてるのも「演技込みの声」だと思うんですけど。この場合、開発者が研究すべきは「人間の喋り方」じゃなくて「演劇理論」になると思うので、概念がまるで変わるはず。
どっちかというと、研究者が声優に喋らせて収録するんじゃなくて、声優さんが自分の思考回路を伝えて、それをAI化していく作業が必要になるはず。
演技は詳しくないですけど、声優さんは脳内に自分自身の演技ロジックとか勝ちパターンを持ってるはずなんですよね。
ボイロみたいにパラメーターを上げて喋り方を変えるって発想は、凄く幼稚だし、限界があると思います