うたこさんの技術詳細です Show more
入力は数秒の音声データ(スペクトログラムなどの前処理はなし)、それに対して畳み込み4層、全結合を5+2層(後述)。教師データは「どの曲から切り出してきたデータか」。全結合層を5+2としたのはこの"+"の部分が8ニューロンと極端なボトルネックになっているため。この出力を「座標」とみなし、これのユークリッド距離で曲同士の「近さ」を算出します。
ボーカロイド好きが集うMastodonインスタンス、通称「ボカロ丼(ボカロドン)」です。 ** This server is for "Vocaloid" lovers. If you are not, please select other server. **