以下の内容はhttps://upura.hatenablog.com/entry/2020/04/14/233601より取得しました。


言語処理100本ノック 2020「24. ファイル参照の抽出」

問題文

nlp100.github.io

問題の概要

正規表現を用いて、参照されているメディアファイルに該当する箇所を取り出します。

import re
import pandas as pd


df = pd.read_json('ch03/jawiki-country.json.gz', lines=True)
uk_text = df.query('title=="イギリス"')['text'].values[0]
for file in re.findall(r'\[\[(ファイル|File):([^]|]+?)(\|.*?)+\]\]', uk_text):
    print(file[1])



以上の内容はhttps://upura.hatenablog.com/entry/2020/04/14/233601より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14