Follow

うたこさんの技術詳細です 

入力は数秒の音声データ(スペクトログラムなどの前処理はなし)、それに対して畳み込み4層、全結合を5+2層(後述)。教師データは「どの曲から切り出してきたデータか」。全結合層を5+2としたのはこの"+"の部分が8ニューロンと極端なボトルネックになっているため。この出力を「座標」とみなし、これのユークリッド距離で曲同士の「近さ」を算出します。

Sign in to participate in the conversation
Vocalodon

ボーカロイド好きが集うMastodonインスタンス、通称「ボカロ丼(ボカロドン)」です。 ** This server is for "Vocaloid" lovers. If you are not, please select other server. **

image/svg+xml