InstaFlowで画像生成に革命が!?

「さはら３」です。

AI副業でどこまでいけるのか？をテーマに頑張っていきたいと思います。

本日は衝撃的な情報を入手いたしましたのでご紹介いたします。

InstaFlowは、Helixon ResearchとUT Austinの研究者によって開発された一段階の画像生成器です。

　このモデルは、テキストから画像を生成する際に、計算リソースの需要を大幅に削減しながらも、Stable Diffusionに近い画像品質を達成します。

　この効率性は、最近の「Rectified Flow」技術によって可能にされています。

　超高速推論:

　InstaFlowは一段階の生成器であり、ノイズを直接画像にマッピングします。A100 GPUを使用した場合、推論時間は約0.09秒で、元のStable Diffusionと比較して推論時間を約90%節約します。

　高品質:

　InstaFlowは、Stable Diffusionと同様に詳細な画像を生成し、MS COCO 2014でのFIDも同様に優れています。

　シンプルかつ効率的なトレーニング:

　InstaFlowのトレーニングプロセスは、単に教師ありトレーニングを行うだけです。事前トレーニングされたStable Diffusionを活用して、InstaFlow-0.9Bを取得するのにA100 GPUで199日しかかかりません。

InstaFlowは、テキスト条件付きのReflowを使用して2-Rectified Flowを生成し、これをOne-Step InstaFlowに蒸留します。このプロセスは、ノイズ分布と画像分布の間のより良い結合を可能にし、成功した蒸留を許可します。

InstaFlowは、高速な推論と高品質な画像生成の両方を実現する強力なツールです。その効率性と簡潔性は、多くのコンピュータビジョンタスク、特にテキストから画像への生成において、新しい可能性を開きます。

　→ここまでをChatGPTに書いてもらい、多少添削いたしました。

すごい技術が発表されました。主に画像生成を行っている方にとっては、朗報ではないでしょうか？

まだ利用できる環境が整っておりませんので、環境が整い次第動作結果を報告したいと思います。

AI関連は日進月歩、日々之精進でございます。

最後まで読んで頂きありがとうございました。

AIさはら

Sahara3のAI副業