Dec 15, 2009

proxy and planet feed reader

1. proxy
公司上网只能用代理,我的主要的事情都在Linux (Ubuntu) 上做的,server 基本
不进X.
设置 http_proxy, fpt_proxy 可以使 apt, wget, curl 等正常工作,但其他软件
无法连到互联网上去,很是不爽
今天连 Google Reader 用的也不爽了,突然想自己抓取 rss,搜了下已经有很好
的实现了 http://www.planetplanet.org
但,首先要解决让其他软件也可以通过 http 代理上网
Google 了下,有个 tsocks 但这个软件只支持 SOCKS 代理, 而我只有 HTTP 代理
后来找到了 proxychains , SOCKS 、HTTP 代理都支持
配置很简单 /etc/proxychains.conf 注释也很详细, 就不说了
用法: proxychains command
如果带参数的可以: proxychains sh -c 'command args...'

2. Google Reader 最近老自动跳转, 郁闷的很,而且那个代理上网超级慢,所以
想自己定期抓取然后中午看..
http://www.planetplanet.org 有现成的,很多开源组织也在用...
配置挺简单的,参考 examples/basic/config.ini 或者 examples/fancy/config.ini
$ planet.py yourdir/basic/config.ini # 开始抓取
完成后提示你内容在 output/index.html

我的 rss 是从Google Reader 先导出xml, 再sed 分析, 再 >> config.ini
$ cat parse.sed
#!/bin/sed -nf
/<[^>]\+>/b
:x
/\s*<outline[^>]*/ {
/[^<]*\/>$/! {
N
s/\n/ /g
tx
}
}

/\s*<outline[^>]*/,/[^<]*\/>$/ {
s:.*title="\([^"]*\)".*xmlUrl="\([^"]*\)".*:[\2]\nname = \1\n:
/0x557/b
/blogspot/b
p
}

No comments:

Post a Comment

您的评论将使我blog更有动力~