PDF差異存儲優化

獨樹一幟的PDF存儲削減及優化方案

patent-pending大批量同類PDF電子文檔往往包含重復資源及數碼資訊,因此如何減少重復數據的存儲量、並因此減低存儲和傳輸方面的開支,一直是一個饒有興趣的課題。但是,PDF文檔内容的可變性和自洽性一直是瓶頸,導致不同文檔内的相似數據難以發現識別,更難以提取替換。本技術方案創造性地突破了這一瓶頸,可使得PDF檔案總體存儲量減小90%之多,並保證可完全恢復未壓縮狀態的數據。

現狀概覽

對銀行電信保險等具有客戶群及資訊網來的行業來説,日益增長的客戶群不可避免地帶來在電子文檔存儲及處理方面的隱憂。原先的印件,被以數碼形式截留、並通常轉換為PDF點子檔案,越來越多的用戶及公司紛紛選擇了無紙化,原先分散在客戶那裏的檔案存儲壓力由此被匯聚起來,成爲業務公司的負擔——紛繁的業務種類、資訊流通和廣告投放等現實,都使得人均存儲需求一再成倍地增長,成爲一個明顯的開支來源。

雲端存儲的服務商按物理尺寸收取服務費用,因此如何削減存儲壓力,是各個業務公司自己去面對的負擔。作爲檔案格式,PDF本身已經具備小尺寸、高精度、富媒體的優點,比直接存儲用於列印的原始數據優越。但是,列印件通常是成千上萬件的合併,當中不斷重復使用著有限的圖形字體等資源,這些資源一次性裝入列印系統之後,可以完成整批的列印業務。然而轉換為PDF之後,單個的小型檔案必然各自帶有一份獨立的資源,這是由PDF的自封裝性、可便攜性所決定的。通常,轉換過程會對資源進行足夠的優化,以保證單個PDF的尺寸,但是儅數量龐大時,大量的重復資源仍然不可避免地成爲一個難以攻克的痼疾。

image006

多傢公司對此提出了各自的方案,大致有如下各種思路:

一、壓縮PDF檔案,在使用時再予以解壓。此方法的可行性較差,因此實際上,PDF的内容通常都是最優壓縮過的,已經沒有餘地再繼續壓縮。

二、從入口著手,僅存儲原始的AFP列印數據而不存儲任何PDF,但是原始件拆分爲小的AFP檔案,在用戶需要調閲PDF時,從資源庫申請所需要的資源,即時轉換,在先生成PDF檔案返回給等待的用戶終端。這種方案的潛在問題是大量的轉換時間,因爲同樣的資源要從資源庫提取無數次,也要佔用嗣服器的時間進行轉換無數次,在減小了存儲開支的同時,反而大大增加了運行開支。

三、處理PDF檔案,把其中的圖形等資源一概刪掉,改用一個特殊的佔位標誌代替,原先的PDF因此成爲不完整的框架。移除的資源則存入資源庫,在調閲時再從庫裏提取相應的數據,重新嵌入原先位置,組裝成爲完整文檔。這個方案避免了對原始數據的反復轉換,但是實際的可操作性如何呢?PDF數據的表達方式非常靈活,同時又包含大量的交叉鏈接,要以如上方式提取資源,會發現面臨重復資源無法識別和複現的問題,因爲同一個資源在不同的文檔裏所涉及的鏈接方式各不相同。同時這一方案不存在可移植性,因爲資源被置入庫中,離開庫之後該文檔可說是無用。

image007

本司方案

本公司獨特的方案並不直接來源於以上任何一種思路。基於本公司專有的PDF差異對比技術,本方案可以輕易及準確地判斷兩個PDF文檔之間的差異,並將其中一個文檔作爲模板、而將另一個文檔表達為與模板的差異即可,在調閲時,從模板直接獲取所需補足的物件,並進行交叉鏈接的替換。並不需要把資源收入單一而固定的庫,由此也避免了相關在移植、調度等方面的問題。

于此同時,我們可以對頁面内容的構成進行再加工,分離出可以復用的資源,並可以移除某些並不需要的物件,並對模板本身的圖像等數據進行優化。值得一提的是,整個方案採用了PDF最新標準下的壓縮存儲模式,實現額外的削減。理想情況下,可使得文檔資料的總體尺寸最終可減去85%至90%,這個數字意味著在存儲方面極大地節省了業務公司的固定開支。

About the Author: Cyphia