音声処理も可能？OpenCV 4.5.5の新機能について解説！

OpenCVは画像処理ライブラリとしての一面が強く、様々なフォーマットの画像を入出力することができます。JPEG/PNGといったメジャーなものから、TIFFやWindows bitmap、PortableImageFormatなどがサポートされています。詳細は以下の公式ドキュメントを参照してください。

【参照】：OpenCV: Image file reading and writing

OpenCVの主な機能

ここでは、4.5.5以前からも提供されている、OpenCVの主なモジュールをご紹介します。

・core OpenCVの基礎となるようなモジュールです。OpenCVの各モジュールには依存関係がありますが、ほとんどのモジュールがこのcoreモジュールに依存しています。画像・行列データ構造の提供、配列操作、基本図形描画などを行う処理が実装されています。

・imgcodecs/imgproc imagcodecsはその名の通り、画像ファイルの入出力（エンコーディング/デコーディング）を担当します。OpenCVで画像を処理する際には必ず使用されるモジュールです。

imgprocは、取得してきた画像に対して様々な加工処理を行うモジュールです。ネガティブ/ポジティブ変換などのフィルター処理や、画像の色変換を行うことができます。imgcodecsモジュールに依存しています。

・objdetect 取得してきた画像を元に、人の顔や特定の物体を自動的に検出してくれるモジュールです。画像処理を伴うため、imgprocモジュールに依存しています。

・ml 機械学習（Machine Learning）に特化したモジュールです。SVM・決定木・ブースティング・ニューラルネットワークなどの技術が用いられています。

・videoio/video ここまでは画像（静止画）を処理するモジュールだったのに対し、これら2つは動画に対する処理を行うことができるモジュールになっています。videoioは静止画におけるimgcodecsと同じく、動画の入出力処理を担当します。videoモジュールは入力された動画について、動画内での物体追跡などを行うことができます。

・highgui higuiは、エンドユーザーがより使いやすいように、画像処理結果のGUI処理を行うモジュールです。各種プラットフォームにおいて、処理対象の画像/動画をウィンドウ表示したり、マウスやトラックバーによる操作を実現することができます。

ここで挙げたモジュール以外にも、OpenCVには数多くのモジュールが存在します。システムに組み込む際には、ぜひ下記の公式ドキュメントを参考にしてみてください。

【参照】：OpenCV: Image file reading and writing

OpenCV 4.5.5における変更点・新機能

本章では、4.5.5で新しく実装・変更された機能について解説します。以下に挙げるのは一部ですので、詳細は下記公式サイトを参照してください。

【参考】:OpenCV 4.5.5

動画解析用モジュールに音声解析機能が追加された

OpenCVの4.5.5以前のバージョンでは、OpenCVは動画の映像部分の解析機能しか持っていませんでした。これに対し、OpenCV 4..5.5ではマルチメディア解析プラットフォームである「Microsoft Media Foundation」または「GStreamer」と組み合わせることで、動画の音声解析ができるようになっています。

この機能追加により、これまでできなかった動画音声からの字幕生成や、逆に動画音声に対して特定のデータを挿入し、動画の音声を変換することがより簡単にできるようになりました。

QRコード生成機能が追加された

OpenCVのobjdetectモジュールには、以前のバージョンからQRコード読み取り機能が提供されていました。今回の4.5.5バージョンではQRコードの「生成」機能が新しく提供されています。

今までQRコードを生成するためには、Javaではzxing、Pythonではqrcodeといった言語それぞれに固有なライブラリをインストールする必要がありました。一方で、今回リリースされたOpenCV4.5.5を用いることでそれぞれの言語の違いを吸収してQRコードを生成することができるようになりました。