高効率実世界データ圧縮ソフト「SemantiPack」のベータ版を公開しました

株式会社ExData は,実世界データ向けの高効率なデータ圧縮ソフトウェア「SemantiPack」のオープンベータ版ウェブサイト「SemantiPack Web」を公開しました.
以下のページより,ブラウザ上で簡単に SemantiPack をお試しいただけます.

https://semantipack.exdata.co.jp/

SemantiPack は,CSV / JSON 形式のデータの意味的構造を利用して,従来手法(gzip)に比べて約 50 % 小さく圧縮します(最良のロスレス圧縮手法と比較しても,平均で約 20 % 小さく圧縮).
さらに,SemantiPack のロスありモードを使用すると,実世界データの特徴をできる限り残しつつ,さらに小さく圧縮できます.
これにより,従来は捨てられていた組織内の実世界データの長期保存と利活用の促進を実現します.

SemantiPack Web では,実際にお手元のデータやサンプルデータを使用して,SemantiPack の圧縮性能をご確認いただけます.
入力されたデータはすべてブラウザ上で処理され,外部に送信されませんのでご安心ください(自動生成された RWD Profile や動作ログは収集する場合があります).
※ SemantiPack Web では,SemantiPack の機能を一部制限した,WebAssembly 版を公開しております.そのため,入力できるデータサイズや処理速度に制限があります.

なお,ExData Account に登録して SemantiPack の無料ベータテスターライセンスを取得すると,入力データサイズの上限が 16MB から 64MB になります.
この機会にぜひご登録いただき,様々な実世界データの圧縮性能をお試しください。

SemantiPack の仕組み

SemantiPack は,スマートフォンや IoT センサから収集した実世界データの性質に着目した,データ圧縮ソフトウェアです(特許出願中).
実世界データには,主に 1. 決まった形式でデータが記録される,2. 同じ形式のデータが繰り返し記録される,3. データ列ごとの特徴が強い という性質があり,SemantiPack はこれらの性質を活用して,実世界データを効率よく圧縮します.

図1:SemantiPack の仕組み

同様な圧縮手法として Apache Parquet が存在しますが, Apache Parquet は表形式データを構造的に分解して圧縮するのに対し,SemantiPack では セマンティックなメタデータを用いたより強力な圧縮及び JSON のような複雑な構造データの圧縮をサポートしています.

SemantiPack をより詳しく知りたい方へ

SemantiPack の技術的詳細については,米国電気電子学会(IEEE)のオープンアクセス誌 IEEE Access に掲載されております.

https://doi.org/10.1109/ACCESS.2025.3583829

本論文は IEEE Access の Editor's Choice ( Featured Article ) に選定されました.
Editor's Choice に選定される論文の割合は,IEEE Access に掲載される全論文中の約 0.2 % です (弊社調べ;2025年1月~7月分実績).

SemantiPack: An Efficient Real-World Data Compressor Using Structural and Semantic Metadata - IEEE Access

The exponential growth of Real-World Data (RWD), primarily collected from IoT sensors and spanning domains such as mobility, environment, and energy consumptio…

※ SemantiPack Web では,SemantiPack の機能を一部制限した,WebAssembly 版を公開しております.本論文では,CLI 版を用いて性能評価を行ったため,WebAssembly 版と性能は一致しません.

SemantiPack の圧縮性能

従来の圧縮手法(bzip2,bzip3,gzip,xz,zstd,parquet)とSemantiPack( ロスレス版・ロスあり版)の比較:比較に用いた 27 種のデータのうち,CSV 形式のデータは約 16~19% 小さく,JSON 形式のデータは約 23% 小さく圧縮できました.また,一般的によく用いられる圧縮手法である gzip (Deflate) と比較すると,約 50% 小さく圧縮できます.一方で,圧縮・展開時間は従来手法と比べて大差なく,圧縮率の割には高速な処理を実現しています.また,ロスレス圧縮では,多少の誤差増大を許容すればより高効率な圧縮が実現でき,50% 以上小さくすることも可能です.

図2:SemantiPack の圧縮性能

また,SemantiPack の論文発表後に Meta 社が発表した類似手法の OpenZL と比較しても,より多様なデータに対する互換性と,高い圧縮率を実現しています(弊社調べ).

SemantiPack の開発背景

本論文の提案手法「SemantiPack」は,国立研究開発法人情報通信研究機構(以下,NICT)による,「高度通信・放送研究開発委託研究課題 データ利活用等のデジタル化の推進による社会課題・地域課題解決のための実証型研究開発」の一環として,2022年12月より実施してきた「実世界データ醸造基盤」の一部として開発した,高効率な実世界データ圧縮ソフトウェアです.
実世界データ醸造基盤の研究開発に関しては,以下のページをご覧ください.

実世界データ醸造基盤の研究開発

 株式会社ExData では,国立大学法人 東海国立大学機構名古屋大学,特定非営利活動法人 位置情報サービス研究機構と共同で,交通・気象・金融・インフラなど様々な分野か…

今後のロードマップ

株式会社ExData では今後,SemantiPack の CLI 版をはじめ,様々な SemantiPack の技術を活用した製品の開発を進めてまいります.

  • zip や tar コマンドと同様にご利用いただける SemantiPack の CLI 版は,近日公開予定です.CLI 版では,より大きなファイルをより高速に処理できます.
  • また,ベータ期間終了後は,より性能が強化された SemantiPack を製品版として販売予定です(一部機能は継続して無償提供予定です).
  • その他,SemantiPack をより便利に・様々なデータ分析ツールと連動してご利用いただけるように準備を進めております.

お問い合わせ

SemantiPack の学術・商用利用・業務提携・スポンサーなどに関するお問い合わせは、株式会社ExData お問い合わせページまでお願いします。

※ 株式会社ExData では,SemantiPack の開発をご支援いただけるスポンサー様も募集しております.スポンサー様には,新機能への優先アクセス,特別価格・条件による製品版のご提供を予定しております.