1 相关链接
(1)问题一方案及实现博客介绍
(2)问题二方案及实现博客介绍
(3)问题三方案及实现博客介绍
2 方案
针对问题一: 为了实现文本二分类,手动标注了部分数据集作为训练集和测试集,利用中科院计算所的分词系统接口进行分词,哈工大的停用词表去停用词,再提取1000维度的TFIDF特征,最后采用基于支持向量机的二分类算法模型训练,测试集验证准确率达为0.82,召回率0.83,F1值0.83。
针对问题二: 在问题一的基础上,对微信公号中的文本进行筛选,选择与文旅相关的样本。再从附件中的酒店评论、景区评论、餐饮评论、游记攻略和微信公众号的文本中,选择部分样本采用 BIOES 标注体系进行实体标注。最后训练基于改进的Bert命名实体算法,再用该算法进行预测所有数据集。建立从旅游产品的频次和情感分析两个角度的热度评价模型,分析得出2018年至2021年最热门的旅游产品分别为清香面包店(车田街店)、元晟坊蛋糕(南香公园店)、菠斯蒂蛋糕、友情有意音乐餐厅。
针对问题三: 在问题二的基础上,对数据集中每个样本进行旅游产品独热编码,计算所有产品的支持度、置信度和提升度,并以三者的加权作为关联度。并选择关联度大于0的旅游产品进行了关联图谱可视化。
针对问题四: 根据疫情前后的历史数据做出的关联图谱、旅游产品热度和种类可视化对比,从旅游产品之间的关联性、旅游产品热度和旅游产品种类三个角度分析了疫情所带来的影响和变化。并根据分析结果对当地部门提出合适的防控建议和增大旅游业发展的建议。
**关键词:**文本分类;命名实体;旅游产品;知识图谱;
3 论文部分图片
论文https://github.com/BetterBench/My-mianbaoduo
4 论文
完整论文下载:私信我,同时把该文章链接发给我
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容