Download | Search | Support | About InfoMaker
Headline-Reader
オンラインマニュアル
概要
Q&A
インストール
設定
ファイル
チャンネルリスト
ヘッドラインリスト
表示/機能
ブラウザ
ツールバー
HTML抽出機能
FTPSync
BWS - Sync API
Podcasting
スタイルテンプレート
ショートカット
アンインストール

RSSリーダー
Headline-Reader
Headline-Reader
Lite

Headline-Deskbar

RSSエディタ
Headline-Editor
Standard版

Headline-Editor
Lite版


ご購入方法
Headline-Reader
Headline-Editor
Standard版


RSS/Atom?
RSS対応サイト
サイト内検索
ダウンロード
サポート
InfoMakerについて
ブログ

HTML抽出機能 v.2


パターンマッチモードを使用するにはHeadline-Reader ver.2.13 以上が必要です。

概要

  • 標準モード

    ホームページの新着情報一覧ページなどから追加された文字列リンクを抽出することによりRSSに対応しないホームページの更新を知ることができます。

  • パターンマッチモード

    正規表現のパターングループ(独自拡張)を使ってタイトル、リンク、概要(本文)、カテゴリ、作者名などが抽出できます。

注意点

HTML抽出機能を指定したチャンネルに関しましては以下の制限事項や注意点があります。

標準モードの注意点
  • 更新の差分を取りますので登録時には記事は取得されません。
  • [設定]ダイアログの中の[接続]タブの[接続方法/プロキシ]や[非同期接続数]には対応しません。
  • [FTPSync]には対応しません。
標準モード/パターンマッチモードの注意点
  • 追加ダイアログやプロパティパネルの中でHTML抽出機能と併用できないものは淡色表示されます。
  • 抽出されたリンクの中にはセキュリティ上の問題やユーザー様が要求しないものが含まれる場合がありますので『信頼できるサイト』かどうか十分ご注意下さい。
    • Amazonの1クリック購入へのリンク
    • 危険なサイトやプログラムへのリンク
  • 抽出結果が必ず期待通りとは限らないことにご注意下さい。
    期待通りの結果が得られないページをお知らせいただければ調査いたしますがご要望に添えない場合がありますのでご了承下さい。特に "広告を除外したい" というようなサイト運営者側にとって不利益となる要望にはお応えすることはできません。
  • RSSを登録する場合と同じくらいに簡単に使用できることを目的とした機能ですので複雑なカスタマイズ機能を実装する予定はありません。
  • RSSサイトの普及状況など、色々な要因によって将来的に機能が削除される可能性があることをご了承下さい。
  • パターンマッチモードの記述方法などのサポートはおこなえません。

使用方法

HTML抽出機能の使用方法はとても簡単です。
チャンネルの追加ダイアログでRSSではなく抽出したいページのURLの入力と[詳細]情報の中の[HTMLから抽出]のチェックをオンにしていただき[実行]で完了です。パターンマッチモードを使用する場合はチェックボックス横の入力ボックスに正規表現を入力します。




除外指定

抽出したいページの中には動的に挿入されるリンクなどページを取得する都度に内容が変化するものが含まれる場合があります。

たとえば http://ad.infomaker.jp/・・・・ のように規則性のあるリンクが挿入される場合には [http://ad.infomaker.jp/] を除外指定して頂ければ抽出の対象外となります。




フィルタ

タイトルに含まれる文字列との比較によりフィルタ処理をおこなうことができます。

たとえば Googleニュース 日本語版の場合には "関連記事 6 件 ≫" というようなリンクが随所に挿入されます。このような場合には、たとえば "!≫" や "!関連記事*≫" のような形でにフィルタをかけることができます。フィルタの書式に関してはこちらをご覧下さい。




ログインが必要なサービスでの使用例

ログインが必要な会員サイトの中でInternet Explorerでの自動ログイン状態を保持できる場合にページ情報も取得できるケースがあります。現時点でソーシャル・ネットワーキングサイトのmixiGREEの新着日記の一覧などが抽出できることを確認しております。(自動ログインがオンになっている必要があります)

サイト側のシステムの状態が変更されたりユーザー様の環境によっては取得できない場合があることをご了承下さい。

マイミクシィ最新日記の場合 http://mixi.jp/new_friend_diary.pl
GREEの友達の日記の場合 http://b.gree.jp/?mode=dir&act=friend_blog

標準モードでGREEを使用する場合は、友達のページへのリンクも抽出されますので以下のURLを除外指定します。
http://n.gree.jp/?mode=profile&act=look&user_hash=


パターンマッチモードを使用する場合の一例

正規表現に準ずる形ではありませんがパターングループ "()" の先頭に以下の変数を使用します。

{link} ... リンク (省略した場合はベースとなるURLがセットされます)
{title} ... タイトル (省略した場合は description の先頭70バイトがセットされます)
{description} ... 概要 (省略可能)
{category} ... カテゴリ (省略可能)
{creator} ... 作者名 (省略可能)

NIKKEI NET:主要ニュース


やじうまWatch (description、creator を使用した例)


窓の杜


BroadBand Watch 編集後記 (linkを省略した例)


ZAKZAK - 社会 / ZAKZAK - スポーツ


mixi 日記 (creatorを使用した例 / 自動ログインが必要です)


mixi コミュニティ (categoryを使用した例 / 自動ログインが必要です)


これらの一例は使用方法を解説するための目的で紹介しております。使用される場合は各サイトの使用規約をご覧いただき、規約の範囲内でお楽しみください。