以。去重之后剩下700多条新闻和帖子,他倒吸一口凉气。
短短几天,全市竟然发生了700多起失踪案!
提取工作最难的一部分是地点识别,他没有字典,如果是有物流公司的数据就好了——思忖片刻,问题很快解决。
他打开无极公司的地图网页,找到API接口,用网页提取的方式将钱唐市的所有街道小区名、路名、饭馆名、桥名、河名全部提取下来,毕竟工作量不大,于是他连公共厕所也没有放过。导入新的数据表后,自制的字典完成。
借着字典和熟悉的命令,几十万字的新闻在5分钟化为700个零碎地名的文件,再次去重之后,只剩下500多个地名。
早知道刚刚顺便把坐标也提取下来了,文承挑了挑漫不经心的眉毛,喝了一口茶舒展身体,靠着椅背略微休息一会回到屏幕前,重新调用无极公司的API。
这才发现无极公司早就提供了数据地图的功能,作为测试版本还是免费的,文承露出欣喜的笑容,他重新下载好地名的数据包,再次敲击好命令之后,500多个地名后面纷纷出现对应的GPS坐标。
从开始到现在一共过去了两个小时,文承望着屏幕上密密麻麻标着红点的地图露出兴奋的笑,如此短的时间内取得如此进展真是叹为观止!这是过去以往都没有达到的推进速度。
看着屏幕,文承喜悦的嘴巴逐渐大张,满脸惊恐。
红点分布一共呈现出多个大圆,大多分布在城南城西,离自己最近的圆,其圆心是自己家南侧两个街区的十字路口,半径在两公里左右,无论是学校、自己家都被覆盖!
最后是数据拟合,不管怎么样数据都是符合幂律分布的,他首先删去除了其他地方的数据,只剩下自己所在片区的一个圆,他将噪点中心都去掉,只剩下最外围的点状分布,拼成一个圆环的轮廓,圆形拟合可以使用最小二乘法,他还没用过这样的公式,文承皱起眉头。
他快速搜索到最小二乘法的原理,花了十几分钟快速啃完,接着来到开源代码网站,却找不到php版本的,有的是C语言版本,他还不是很熟,不过原理是相通的,更何况直接应用就可以,根本不需要二次开发。
他深吸一口气,下载了matlab之后将数据重新导入,一个清脆的回车键,拟合结束!
文承看着屏幕上一个完美的圆形满意地笑起来,揉了揉眼睛,将数据再次导入地图。
地图上的圆心名叫远拓大厦,
文承突然想起来,那是一个烂尾楼。
将结果保存后关了电脑,忍住将答案告诉熟睡女孩的冲动,文承来到房门外悄悄关了门,来到沙发上躺下。
他看了看手机,已是凌晨五点,即便是一个小时,还是够睡的。
兴奋的情绪似乎是小鬼的舞蹈一样纠缠在脑中,文承无论怎么努力闭上眼睛都沉不下心,他在手机上胡乱翻着,突然翻到了前阵子刚拍下的一个女孩的照片,一下子就平静下来,他就那样静静地静静地看着,心绪逐渐平稳,困意排山倒海般涌来。