PoseNet

提供: MonoBook
2023年5月17日 (水) 01:36時点におけるAdministrator (トーク | 投稿記録)による版
ナビゲーションに移動 検索に移動

PoseNetとは、Googleが開発した静止画や動画から人物の姿勢(骨格構造)を推定する「姿勢推定(Pose Estimation)」するためのTensorflow Lite用の深層学習モデルです。

ちなみにGoogleは次世代の姿勢推定モデルとして「MoveNet」を公開しています。次世代とうたっていますがただし認識精度は背景などの要因によりPoseNetもMoveNetも一長一短のようです。

PoseNetはオープンソースかつApacheライセンスを採用しています。姿勢推定モデルは商用のものしか存在しなかったところの殺到と登場して話題になりました。


PoseNetは、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を基にしています。モデルは画像内の関節ポイントを予測し、各関節を繋いで人体の姿勢を形成します。PoseNetのモデルは、様々な姿勢の変化やポーズの検出に対して高い精度を持っています。

PoseNetは、リアルタイムの姿勢推定に向けて最適化されており、モバイルデバイスやWebブラウザなどのクライアントサイドでの使用に適しています。これにより、スマートフォンやタブレットなどのデバイス上でリアルタイムに姿勢推定を行うアプリケーションを開発することができます。

PoseNetは、姿勢推定に関するさまざまなバリエーションが存在します。例えば、シングルポーズ(1人の人物の姿勢推定)、マルチポーズ(複数の人物の姿勢推定)、3D姿勢推定などがあります。また、TensorFlow.jsやTensorFlow Liteなどのフレームワークやライブラリで使用できる形式も提供されています。

PoseNetは、人体のモーションキャプチャ、ジェスチャ認識、フィットネスアプリ、AR(拡張現実)アプリなど、さまざまな領域で活用されています。