以下の内容はhttps://end0tknr.hateblo.jp/entry/20250715/1752527428より取得しました。


xdwlib for python を用い docuworks(xdw)内のtext抽出

https://github.com/hayasix/xdwlib

「pip install xdwlib」により、xdw2text.py も installされますので、 これを参考に以下。

xdwlibは docuworks sdkを必要せず実現しているところが、すごい気がします

import xdwlib
import traceback

def main():
    try:
        xdw_path = "test_doc/sample.xdw"
        doc = xdwlib.xdwopen(xdw_path, readonly=True, authenticate=False)
        txts = doc.fulltext() #実体は xdwlib/basedocument.py
        print( txts )

        for i, page in enumerate(doc):
            txts = page.fulltext()
            print( i, txts )

    except Exception as e:
        print( e )
        print( traceback.format_exc() )
        return
    
if __name__ == "__main__":
    main()



以上の内容はhttps://end0tknr.hateblo.jp/entry/20250715/1752527428より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14