2010年11月29日星期一

在Pipes抓取Yahoo Answer的正则

昨天想试一下autoblog,就用pipes烧了一个yahoo answer的feed。

具体步骤是去yahoo answer填好关键字,选好搜索选项,然后在搜索结果左边复制RSS地址,作为pipes的源,然后用 loop 加 fetch page 抓取原文的源代码,然后再加一个regex过滤description.content

正则表达式为: <h1[\s\S]*?h1>([\s\S]*?)<ul[\s\S]*?<h2><span>(.*)<\/span>[\s\S]*?content">([\s\S]*?)<\/div>[\s\S]*

可以过滤出问题和最佳答案(所以开始生成搜索的时候要把"resolved"选上)。
然后用 rss buider 重整一下就可以输出了。

没有评论:

发表评论