Zennta

Qiita一覧

Zenn一覧

ビジョン言語モデル(VLM) とビジョン基盤モデル(VFM)の違いは？　Phi-3.5-vision / Florence-2 を具体例に

PDFの検索（ColPali）→ 画像からキャプションの生成とバウンディングボックスの配置（Florence-2-large）を試してみた

Florence-2を使ってみる - 画像認識AI

Florence-2をHugging Face上で触ってみる