DAIaryX

Phi-4-multimodal-instructを使ってみる

しん

Phi-4-multimodal-instructを使ってみる

Phi-4-multimodal

Phi-4-multimodalは以前のVisionモデルと統合された幅広い表現が可能となったモデルとなっており、サービスに応用できそうな可能性を感じたので、実際に使ってみました。
テキスト、視覚、音声にまたがる単一の新しいオープンモデルとしてトレーニングされたため、すべての入力と出力が同じニューラルネットワークによって処理されるそうです。


Phi-4-multimodalでできること

  1. メモリ/コンピューティングに制約のある環境
  2. レイテンシバウンドのシナリオ
  3. 強力な推論(特に数学と論理)
  4. 機能とツールの呼び出し
  5. 一般的な画像の理解
  6. 光学式文字認識
  7. チャートとテーブルの理解
  8. 複数の画像の比較
  9. マルチ画像またはビデオクリップの要約
  10. 音声認識
  11. 音声翻訳
  12. 音声QAについて
  13. 音声の要約
  14. オーディオの理解

環境構築

環境構築は以下の記事を参照してください。


modelsディレクトリにPhi-4-multimodal-instructをインストールします。

git clone https://huggingface.co/microsoft/Phi-4-multimodal-instruct

以下のパッケージをpip installします。

flash_attn==2.7.4.post1
torch==2.6.0
transformers==4.48.2
accelerate==1.3.0
soundfile==0.13.1
pillow==11.1.0
scipy==1.15.2
torchvision==0.21.0
backoff==2.2.1
peft==0.13.2


公式のサンプルコードをsample.pyとして保存し、実行します。

import requests
import torch
import os
import io
from PIL import Image
import soundfile as sf
from transformers import AutoModelForCausalLM, AutoProcessor, GenerationConfig
from urllib.request import urlopen


# Define model path
model_path = "models/Phi-4-multimodal-instruct"

# Load model and processor
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
attn_implementation='flash_attention_2',
).cuda()

# Load generation config
generation_config = GenerationConfig.from_pretrained(model_path)

# Define prompt structure
user_prompt = '<|user|>'
assistant_prompt = '<|assistant|>'
prompt_suffix = '<|end|>'

# Part 1: Image Processing
print("\n--- IMAGE PROCESSING ---")
image_url = 'https://www.ilankelman.org/stopsigns/australia.jpg'
prompt = f'{user_prompt}<|image_1|>What is shown in this image?{prompt_suffix}{assistant_prompt}'
print(f'>>> Prompt\n{prompt}')

# Download and open image
image = Image.open(requests.get(image_url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors='pt').to('cuda:0')

# Generate response
generate_ids = model.generate(
**inputs,
max_new_tokens=1000,
generation_config=generation_config,
)
generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:]
response = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(f'>>> Response\n{response}')

# Part 2: Audio Processing
print("\n--- AUDIO PROCESSING ---")
audio_url = "https://upload.wikimedia.org/wikipedia/commons/b/b0/Barbara_Sahakian_BBC_Radio4_The_Life_Scientific_29_May_2012_b01j5j24.flac"
speech_prompt = "Transcribe the audio to text, and then translate the audio to French. Use <sep> as a separator between the original transcript and the translation."
prompt = f'{user_prompt}<|audio_1|>{speech_prompt}{prompt_suffix}{assistant_prompt}'
print(f'>>> Prompt\n{prompt}')

# Downlowd and open audio file
audio, samplerate = sf.read(io.BytesIO(urlopen(audio_url).read()))

# Process with the model
inputs = processor(text=prompt, audios=[(audio, samplerate)], return_tensors='pt').to('cuda:0')

generate_ids = model.generate(
**inputs,
max_new_tokens=1000,
generation_config=generation_config,
)
generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:]
response = processor.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(f'>>> Response\n{response}')

画像

出力

python sample.py


--- IMAGE PROCESSING ---

>>> Prompt

<|user|><|image_1|>What is shown in this image?<|end|><|assistant|>

>>> Response

A stop sign in front of a building.



--- AUDIO PROCESSING ---

>>> Prompt

<|user|><|audio_1|>Transcribe the audio to text, and then translate the audio to French. Use <sep> as a separator between the original transcript and the translation.<|end|><|assistant|>

>>> Response

What we do as a society, we have to think about where we're moving to. I frequently talk to students about cognitive enhancing drugs and a lot of students take them for studying and exams, but other students feel angry about this. They feel those students are cheating and we have no long-term health and safety studies in healthy people and we really need those before people start taking them. <sep> Ce que nous faisons en tant que société, nous devons penser à où nous allons. Je parle fréquemment avec des étudiants sur les médicaments cognitifs et beaucoup d'étudiants les prennent pour étudier et les examens, mais d'autres étudiants se sentent en colère à ce sujet. Ils sentent que ces étudiants trichent et nous n'avons pas d'études de santé et de sécurité à long terme sur des personnes saines et nous en avons vraiment besoin avant que les gens ne commencent à les prendre.

上記画像のイメージと、英語音声ファイルをフランス語で出力してもらえたようです。

消費VRAM

VRAMは14Gほど使っているようです。

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 3090        Off |   00000000:05:00.0 Off |                  N/A |
|  0%   57C    P0            242W /  350W |   13547MiB /  24576MiB |     46%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GeForce RTX 3060        Off |   00000000:07:00.0 Off |                  N/A |
|  0%   46C    P8             14W /  170W |       4MiB /  12288MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

日本語

日本語で指示を出してみます。

--- IMAGE PROCESSING ---
>>> Prompt
<|user|><|image_1|>この画像を日本語で説明してください。<|end|><|assistant|>
>>> Response
中華門の前にある街角で、車が通過している様子が見られます。街角には様々な商店が並んでおり、特に「中華門」という名前の店が目立ちます。店の前には「STOP」という赤い標識があり、車が通過する前に注意するように促しています。店の名前の上には中国
  の文字が書かれており、店の名前が「中華門」であることを示しています。店の前には人々が歩いている様子も見られ、店の周りには様々な装飾が施されています。店の前には「OPTUS」という名前の店もあり、店の名前の上には英語の文字が書かれています。
  の前には「YES」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「88」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書か
  ています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英
  の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の
  前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の
  もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU
  という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店
  前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書か
  ています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英
  の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の
  前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、店の名前の上には英語の文字が書かれています。店の前には「KUU」という名前の店もあり、

--- AUDIO PROCESSING ---
>>> Prompt
<|user|><|audio_1|>Transcribe the audio to text, and then translate the audio to Japanese. Use <sep> as a separator between the original transcript and the translation.<|end|><|assistant|>
/home/shinichiro/llm/venv/lib/python3.12/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
  warnings.warn(
>>> Response
What we do as a society, we have to think about where we're moving to. I frequently talk to students about cognitive enhancing drugs and a lot of students take them for studying and exams, but other students feel angry about this. They feel those students are cheating and we have no long-term health and safety studies in healthy people and we really need those before people start taking them. <sep> 私たちが社会として行うことは、私たちがどこに向かっているかを考えることです。学生たちにしばしば認知能力向上薬について話し、学生の多くは勉強や試験のためにそれを服用しますが、他の学生はこれについて怒っています。彼らは、学生たちが不正をしていると感じており、健康な人々のための長期的な健康と安全の研究はありません。人々がそれを始める前に、私たちは本当にそれが必要です。

画像を読み取って説明してくれていますが、ループしてしまっているようです。
音声も日本語にしてくれましたが、苦手な印象です。

まとめ

音声、画像の読み取り能力は高いですが、日本語性能は良くなさそうです。
単体では日本語サービスに組み込むことは難しそうですが、DeepSeekと組み合わせると多くのことができそうな気がしてます。
今後に期待です。

19

記事数

しん

Rails歴は10年以上で、バックエンド・フロントエンド・インフラ・ネットワーク全てやります。