2012年6月29日星期五

大陆研拟蒙藏维文网络舆情监测系统 监控分裂风险(图)


目前,内地基于中文的网络舆情监测系统已经有较为成熟的研究成果,但由于少数民族语言文字信息化处理水平整体相对滞后,监管部门尚没有成熟的软件系统对少数民族文字的网站进行舆情监测,于是,在一些敏感事件发生之后,不得不关闭网站以应对日益复杂的网络舆情。
中央民族大学等机构正在进行《蒙、藏、维文网络敏感信息自动发现和预警技术》的课题研究。
中国互联网络信息中心(CNNIC)发布的《第28次中国互联网络发展状况统计报告》显示,截至2011年6月底,大陆网民数量已达4.85亿。在公众对中文网络的使用越来越熟练的同时,少数民族文字网站也提上官方管理日程。

国家语言资源监测与研究中心少数民族语言分中心副主任赵小兵介绍,目前直接使用少数民族语言文字的网站并不多,主要有蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、壮文、傣文等9个民族10种文字。根据该中心2011年的调查,大陆少数民族语言文字的网站总量在389个左右,其中蒙古文网站43个、维吾尔文网站175个、藏文网站109个。

少数民族网站在境内蓬勃发展的同时,境外网站数量也有显著增加。2008年西藏“3·14”事件、一年之后,新疆乌鲁木齐“7·5”事件、及内蒙古“5.30”事件发生之后,在短时间内有大量宣扬“蒙独”“藏独”“疆独”的网站和网页出现,海外三股势力已将互联网当做了一个强有力的吸引藏人对抗中国的武器。”

其后,随着越来越多的少数民族运用本民族的文字,通过互联网来表达自己的情绪、态度、意见及要求,形成了少数民族地区的网络舆情。


许多研究机构声称,他们可以为客户提供这类网络舆情的监测服务:其舆情监控系统可在短时间内实现对新闻、论坛、博客、贴吧等各类网络信息进行汇集、分类、整合、筛选,也可对定制关键词的相关主题进行实时监测,全面分析网络舆情发展趋势,提供基于网络舆情监测的决策参考和风险预警。

但政府部门对网络监控尚处于传统的人工方式,人民网舆情监测室尽管能够提供蒙古、藏、维吾尔、哈萨克、朝鲜等少数民族语言的舆情报告,但也是通过人工检索进行分析,与中文舆情报告相比,欠缺科学的分析工具。

一些商业机构如谷尼国际软件公司,也开发了“谷尼互联网舆情监控系统(多语言版)”,支持维文、斯拉夫维文、拉丁维文的舆情服务。中科点击科技有限公司生产的“军犬网络舆情监测系统”,也声称“可有效监控藏文、维吾尔文、蒙古文、彝文、朝鲜文等少数民族语言舆情信息”。

谷尼国际软件公司提供的少数民族语言监测服务,目前仅能实现定向采集与全网搜索这两种监测方式,至于中文舆情监测中的内容情感分析、主题词自动提取、全文检索等服务则无法实现,主要原因是“没有少数民族语言的相关词库和知识库。”这些都有赖于相关学术机构提供基础性的研究成果。

目前大陆开展少数民族信息处理研究的学术机构并不多,主要集中在中央民族大学、新疆大学、西藏大学、内蒙古大学、西北民族大学、青海师范大学和中国社会科学院等高等院校和科研机构。随着少数民族网络舆情监控系统的应用需求越来越强烈,大陆近年来明显加强了这方面的研究投入。

如果仅仅依靠关键词匹配的方式进行网站管理,发现敏感词就进行过滤的话,非常容易产生误判,也会带来负面效果。“少数民族语言本身的含义非常丰富,它有很多同义词,一个所谓的敏感词放在一句话中也许表达的意思可能并不敏感,同样,一个非敏感词恰恰可以用来表达敏感的意思。这种语言的多义性与复杂性要求我们的检测软件更加智能,能够从词语的深层含义去判断它是否敏感,而不是简单地抓出一个表面形式上的词。这就要求我们的管理者不能将管理简单化,一定要人性化、智能化。”

公安部门也在开发一套少数民族语言舆情监测系统,其目的是掌握境内外少数民族语言网络舆情,从源头上了解境外“三股势力”(敌对势力、民族分裂势力和暴力恐怖势力)的最新动向,在应对其可能对境内造成的影响时把握主动权。该软件目前已经在公安系统内部测试使用。

由于现有技术手段不够成熟,内地少数民族文字网站普遍面临较大的监管压力,对于用户创造内容的博客和微博业务,一般不会轻易涉足。即使开通了这一业务,也都采用先审核后发布的办法,以应对可能出现的内容风险。

没有评论 :

发表评论

评论