手術動画の階層的ワークフロー認識用大規模視覚言語データセットSurgLaViとSurgCLIP

Medical image analysis

2026.02.24 配信

AIによる要点抽出

視覚と言語の事前学習（VLP）は外科映像と言語の整合によりワークフロー理解やタスク間転移を可能にするが、既存データセットは規模や手技多様性、意味的品質、階層構造が限定されているため、本研究ではこれらを解決する大規模階層型外科ビジョン・ランゲージデータセットSurgLaViを提示する。