存档

2008年5月 的存档

Beautiful Soup 美丽的汤

2008年5月15日 foolpig 5 条评论

大家别被这个标题给误会了,以为真的是什么美丽的汤,而且这个美丽来形容汤确实有那么一点怪异,呵呵

其实这里所要说的主角Beautiful Soup是程序里面的一个东东,是应用于Python语言的

是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 对于Ruby,使用Rubyful Soup。

昨天晚上弄那个灾情的实时数据,从sina页面中提取出来,开始使用的是正则的方式,还不错

可是今天早晨过来一看,啥都没有,页面报错。。。再一看原始页面的源文件,发现已经更改了标签,我狂晕。。。

没办法,只得另外想办法了,有人说使用HtmlParser可以来解析,可是发现这个无法解析table标签,后来鳄鱼同学说可以使用Beautiful Soup,就是这个美丽的汤

Beautiful Soup官方页面

翻译后的中文文档

以下是我的一段函数

def dizhen (request):
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen(“http://news.sina.com.cn/z/08earthquake/index.shtml”)
soup = BeautifulSoup(page,fromEncoding=’cp936′)
ff=[]
for incident in soup(‘table’, cellspacing=”0″, style=”line-height:16px; margin-top:4px;”):
#print incident
ff.append(incident)
t = loader.get_template(‘512.htm’)
c = RequestContext(request, {
‘tongji’:ff[0],
})
return HttpResponse(t.render(c))

只要在512.htm页面中增加tongji的标签,那段函数输出的结果是一个table,Django就可以将这个table添加到512.htm页面中了

需要注意的是fromEncoding=’cp936′,这里之所以用这个是因为编码的问题,我的页面是utf-8,而sina的这个压面是gb2312,所以这里使用cp936来代替gb2312,,要不然出现乱码 ^__^
终于大功告成,不过有个不好的地发,使用BeautifulSoup的话,速度会比采用正则慢不少,可能呢是因为
是分析整个html,而不是对某一个特定的html代码段用正则

刚弄完,流鼻血

2008年5月15日 foolpig 4 条评论

刚刚修改好了服务器上的一个赈灾专题的页面,保持数据的同步更新,免得每次得去手工更新,好麻烦
详细请看救灾的各种捐助方式

看来Python+Django还不熟,本来以为是一个很小的东西居然弄了这么久,郁闷ing~~~

PS:在弄这个东东的时候打了个好大的喷嚏,结果发现显示器上全是红的,又流鼻血了,可是是一个喷嚏打出来的。。。

我是不是要挂了 =, =

关于血型的漫画~~

2008年5月13日 foolpig 没有评论

今天小蕊子同学发了一些关于血型的漫画,觉得很不错,就在网上找了,比较全~~~ ^__^

由于漫画比较多,所以请点击查看全文

阅读全文…

分类: 书画 标签: ,

汶川大地震

2008年5月13日 foolpig 3 条评论

刚来公司看新闻说汶川的大地震已经造成近万人死亡。。。
昨夜成都四百万人在街头过夜。。。
这次地震也是7.8级,无独有偶,当年唐山大地震也是7.8级,造成24.2万人失去生命
全国各地都有明显的震感,昨天打电话回家,还好家里没什么事

前不久缅甸风暴的时候,国家地震局难道就没有警惕???
事后补救有个P用

真是无言了

分类: 东写西读 标签: , , ,

2008年5月11日 foolpig 1 条评论

今玩仙剑4,夙玉说了这样一段话:

杳杳灵凤,绵绵长归。悠悠我思,永与愿为。万劫无期,何时来飞?

不觉呆呆的

谁言别后终无悔,寒月清宵倚梦回。
深知身在情长在,前尘不共彩云飞。

身也,命也,真想就此去罢

分类: 爱情伊甸园 标签: ,