1855 変更点メモ |
○名前に★〜★が入っちゃう事象への対応
正規表現のarticle=actressだけで検索すると、ブック紹介へのリンクも入っちゃう。
ブックのほうはidの後ろにさらにidがあるようなので、最初のidだけのものが引っかかるよう変更した。
Before
'.*href=.*article=actress.*>(.*)<\/a>'
After
'.*href=.*article=actress/id=[0-9]+/">(.*)<\/a>'
○一部タイトルで内容が取得できない
ミスヒット低減のため、いったんタイトル紹介本文を切り出してから各種マッチングをする。
この本文切り出しのマッチングがページによってはうまくいかないので、他の文言に変えてみた。
Before
'<div\sclass="page\-detail">(.*)<div\sid="relatedlink">'
After
'<div\sclass="page\-detail">(.*)<div\sclass="bg-bskt">'
ジャンルによって逆に悪化するとかあったら教えてください。
〔ツリー構成〕
【1855】 変更点メモ 2018/8/11(土)15:22 Artin (711) |
※ 『クリックポイント』とは一覧上から読み始めた地点を指し、ツリー上の記事を巡回しても、その位置に戻ることができます.