-
摘要: 【目的】论述 Web 信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从 而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不 同的新闻正文信息抽取方法,使得在对 Web 新闻数据采集和存储的基础上,正文信息抽取更加高效和准确。【结果】 两种 Web 信息抽取技术可以广泛应用于海量新闻数据分析、舆情监测等应用场景。【结论】通过基于行块分布函数 的抽取方法和基于统计信息与网页结构的抽取方法,能够分别对轻量网页和大流量网页抽取信息时表现更优。
-
[1] 陈忱 . 大数据及融媒体技术在广电中运用论述 [J]. 中国传 媒科技,2020(12):78-80. [2] 汤佳杰,曹永忠,顾浩 . 基于文本标点密度连续和的网页 正文抽取 [J]. 计算机时代,2020(1):69-72. [3] 俞鑫,吴明晖 . 基于深度学习的 Web 信息抽取模型研究 与应用 [J]. 计算机时代,2019(9):30-32. [4] 邱奇志,周三三,刘长发,陈晖 . 基于文体和词表的突发 事件信息抽取研究 [J]. 中文信息学报,2018(9):56- 65,74. [5] 魏春光 . 浅析互联网大数据在媒体业务的支撑应用——以 人民公安报社舆情监测系统为例 [J]. 中国传媒科技,2019 (6):80-82,117. [6] 王雪梅,陈兴蜀,王海舟,王文贤 . 基于标签和分块特 征的新闻网页关键信息自动抽取 [J]. 山东大学学报(理学 版),2019(3):67-74. [7] 陈俊洁 .Web 信息提取技术与应用的研究 [J]. 数字技术与 应用,2017(9):114,118. [8] 袁然 . 全媒体传播中数据技术的应用实践 [J]. 中国传媒科 技,2021(7):21-23. [9] 马晓慧,李泓莹 . 一种 DOM 树标签路径和行块密度结合 的 Web 信息抽取方法 [J]. 智能计算机与应用,2017(4): 13-16,20. [10] 胡露露,刘小勤,孙凯 . 基于正文特征和网页结构的网 页正文抽取方法 [J]. 大气与环境光学学报,2017(3): 230-235. [11] 王立志.网页信息抽取方法综述[J].网络安全技术与应用, 2022(3):12-13. [12] 赖娟,洪艳伟 . 基于规则约束的深度学习网络用于文 本信息抽取 [J]. 计算机工程与设计,2021(12):354- 355.
点击查看大图
计量
- 文章访问数: 290
- HTML全文浏览量: 60
- PDF下载量: 10
- 被引次数: 0