「MoveNet」の版間の差分

2025年8月18日 (月) 09:10時点における版

MoveNetとは、2021年5月にGoogleがオープンソースで公開した静止画から姿勢推定する人工知能モデルです。

TensorFlow Liteで実装されており、身体の 17 のキーポイントを検出する超高速で高精度なモデルです。ライトニング（高速、入力192x192）とサンダー（高精度、入力256x256）という2種類のモデルが公開されています。

「PoseNetの後継品」ということになっていますが、実際に動かしてみると背景などで一長一短といった感じです。PoseNetはApacheライセンスでしたが、MoveNetはMITライセンスとなっています。

動画の姿勢推定

MoveNetは静止画用ですが、非常に高速なのでそこそこの性能のコンピューターであれば動画のフレームを切り出してリアルタイムに姿勢推定することも可能です。

最近のスマホでも楽勝で動かせます。なお、Androidアプリを作ってみた感想としてはスマホによってはカメラ映像がYUVでしか出力できず、YUVをRGBに変換する方が処理に時間がかかる環境も多々ありました。libyuvなども試してみましたがJavaからNDKを呼び出すコストが大きくやはり重たいです。iOSのカメラ(AVFoundation)はYUVだけでなくRGBでも出力できるので楽勝です。

なお、TensorFlowではなくTensorFlow Lite形式なのでそのままでは非常に扱いづらいです。なのでONNXに変換すると扱いやすいです。

@@ 9行目: / 9行目: @@
 MoveNetは静止画用ですが、非常に高速なのでそこそこの性能の[[コンピューター]]であれば動画のフレームを切り出してリアルタイムに姿勢推定することも可能です。
-最近のスマホでも楽勝で動かせます。なお、Androidアプリを作ってみた感想としてはスマホによってはカメラ映像のはYUVでしか出力できず、YUVをRGBに変換する方が処理に時間がかかる環境も多々ありました。libyuvなどもJavaからC言語を呼び出すコストが大きくやはり重たいです。iOSのカメラはYUVだけでなくRGBでも出力できるので楽勝です。
+最近のスマホでも楽勝で動かせます。なお、[[Android]]アプリを作ってみた感想としてはスマホによってはカメラ映像がYUVでしか出力できず、YUVをRGBに変換する方が処理に時間がかかる環境も多々ありました。libyuvなども試してみましたがJavaからNDKを呼び出すコストが大きくやはり重たいです。[[iOS]]のカメラ(AVFoundation)はYUVだけでなくRGBでも出力できるので楽勝です。
 なお、TensorFlowではなくTensorFlow Lite形式なのでそのままでは非常に扱いづらいです。なのでONNXに変換すると扱いやすいです。
 [[category: 姿勢推定]]