高効率実世界データ圧縮ソフト「SemantiPack」のベータ版を公開しました
株式会社ExData は,実世界データ向けの高効率なデータ圧縮ソフトウェア「SemantiPack」のオープンベータ版ウェブサイト「SemantiPack Web」を公開しました.
以下のページより,ブラウザ上で簡単に SemantiPack をお試しいただけます.
https://semantipack.exdata.co.jp/
SemantiPack は,CSV / JSON 形式のデータの意味的構造を利用して,従来手法(gzip)に比べて約 50 % 小さく圧縮します(最良のロスレス圧縮手法と比較しても,平均で約 20 % 小さく圧縮).
さらに,SemantiPack のロスありモードを使用すると,実世界データの特徴をできる限り残しつつ,さらに小さく圧縮できます.
これにより,従来は捨てられていた組織内の実世界データの長期保存と利活用の促進を実現します.
SemantiPack Web では,実際にお手元のデータやサンプルデータを使用して,SemantiPack の圧縮性能をご確認いただけます.
入力されたデータはすべてブラウザ上で処理され,外部に送信されませんのでご安心ください(自動生成された RWD Profile や動作ログは収集する場合があります).
※ SemantiPack Web では,SemantiPack の機能を一部制限した,WebAssembly 版を公開しております.そのため,入力できるデータサイズや処理速度に制限があります.
なお,ExData Account に登録して SemantiPack の無料ベータテスターライセンスを取得すると,入力データサイズの上限が 16MB から 64MB になります.
この機会にぜひご登録いただき,様々な実世界データの圧縮性能をお試しください。
SemantiPack の仕組み
SemantiPack は,スマートフォンや IoT センサから収集した実世界データの性質に着目した,データ圧縮ソフトウェアです(特許出願中).
実世界データには,主に 1. 決まった形式でデータが記録される,2. 同じ形式のデータが繰り返し記録される,3. データ列ごとの特徴が強い という性質があり,SemantiPack はこれらの性質を活用して,実世界データを効率よく圧縮します.

同様な圧縮手法として Apache Parquet が存在しますが, Apache Parquet は表形式データを構造的に分解して圧縮するのに対し,SemantiPack では セマンティックなメタデータを用いたより強力な圧縮及び JSON のような複雑な構造データの圧縮をサポートしています.
SemantiPack をより詳しく知りたい方へ
SemantiPack の技術的詳細については,米国電気電子学会(IEEE)のオープンアクセス誌 IEEE Access に掲載されております.
https://doi.org/10.1109/ACCESS.2025.3583829
本論文は IEEE Access の Editor's Choice ( Featured Article ) に選定されました.
Editor's Choice に選定される論文の割合は,IEEE Access に掲載される全論文中の約 0.2 % です (弊社調べ;2025年1月~7月分実績).
※ SemantiPack Web では,SemantiPack の機能を一部制限した,WebAssembly 版を公開しております.本論文では,CLI 版を用いて性能評価を行ったため,WebAssembly 版と性能は一致しません.
SemantiPack の圧縮性能
従来の圧縮手法(bzip2,bzip3,gzip,xz,zstd,parquet)とSemantiPack( ロスレス版・ロスあり版)の比較:比較に用いた 27 種のデータのうち,CSV 形式のデータは約 16~19% 小さく,JSON 形式のデータは約 23% 小さく圧縮できました.また,一般的によく用いられる圧縮手法である gzip (Deflate) と比較すると,約 50% 小さく圧縮できます.一方で,圧縮・展開時間は従来手法と比べて大差なく,圧縮率の割には高速な処理を実現しています.また,ロスレス圧縮では,多少の誤差増大を許容すればより高効率な圧縮が実現でき,50% 以上小さくすることも可能です.

また,SemantiPack の論文発表後に Meta 社が発表した類似手法の OpenZL と比較しても,より多様なデータに対する互換性と,高い圧縮率を実現しています(弊社調べ).
SemantiPack の開発背景
本論文の提案手法「SemantiPack」は,国立研究開発法人情報通信研究機構(以下,NICT)による,「高度通信・放送研究開発委託研究課題 データ利活用等のデジタル化の推進による社会課題・地域課題解決のための実証型研究開発」の一環として,2022年12月より実施してきた「実世界データ醸造基盤」の一部として開発した,高効率な実世界データ圧縮ソフトウェアです.
実世界データ醸造基盤の研究開発に関しては,以下のページをご覧ください.
今後のロードマップ
株式会社ExData では今後,SemantiPack の CLI 版をはじめ,様々な SemantiPack の技術を活用した製品の開発を進めてまいります.
- zip や tar コマンドと同様にご利用いただける SemantiPack の CLI 版は,近日公開予定です.CLI 版では,より大きなファイルをより高速に処理できます.
- また,ベータ期間終了後は,より性能が強化された SemantiPack を製品版として販売予定です(一部機能は継続して無償提供予定です).
- その他,SemantiPack をより便利に・様々なデータ分析ツールと連動してご利用いただけるように準備を進めております.
お問い合わせ
SemantiPack の学術・商用利用・業務提携・スポンサーなどに関するお問い合わせは、株式会社ExData お問い合わせページまでお願いします。
※ 株式会社ExData では,SemantiPack の開発をご支援いただけるスポンサー様も募集しております.スポンサー様には,新機能への優先アクセス,特別価格・条件による製品版のご提供を予定しております.

