2024年1月10日发(作者:宝马6系gt 汽车之家)

小型微型计算机系统Journal

of

Chinese

Computer

Systems2021年3月第3期

Vol.42 No. 3 2021基于深度学习的在线健康社区抑郁症用户画像研究刘海鸥“2,姚苏梅1,何旭涛1,苏妍嫄14燕山大学经济管理学院,河北秦皇岛066004)2(燕山大学互联网+与产业发展研究中心,河北秦皇岛066004)E-mail :*****************摘要:人工智能与深度学习技术为精准识别在线健康社区抑郁症患者奠定了基础.首先构建了基于TCNN-GRU深度学习的

抑郁情感分类模型,进行在线健康社区实验数据集进行抑郁情感分类标注后,通过TCNN-GRU模型判别用户的抑郁症倾向;在

此基础上,进一步提出抑郁指数的概念,通过对抑郁指数和患者抑郁程度两者关系的深度挖掘,由此建立基于深度学习的在线

健康社区抑郁症用户画像模型.实验结果表明,与传统的卷积神经网络模型、循环神经网络模型以及混合模型相比,TCNN-GRU

模型在抑郁情感分类上能获得了更优的结果,基于深度学习的在线健康社区抑郁症用户画像模型也能够从文本分析的角度准

确识别用户的抑郁情感和抑郁状态.关键词:在线健康社区;抑郁症;用户画像;TCNN-GRU模型;深度学习中图分类号:TP311

文献标识码:A

文章编号:1000-1220(2021)03^)572~06Research on the Depression User Profile of Online Health Community Based on Deep LearningLIU

Hai-ou1\'2,

YAO

Su-mei1

,HE

Xu-tao1

,SU

Yan-yuan11 ( School of Economics and Management, Yanshan University,Qinhuangdao 066004,China)2 (Internet Plus and Industrial Development Research Center, Yanshan University .Qinhuangdao 066004,China)Abstract:

Artificial

intelligence

and

deep

learning

technology

laid

a

foundation

for

the

identification

of

depression

patients

in

online

healthy

community.

In

this

paper,we

proposed

a

classification

model

of

depression

emotion

based

on

TCNN-GRU,and

marked

the

de?pression

classification

of

the

experiment

data

set.

Then

we

used

the

TCNN-GRU

mode

to

identify

the

depression

tendency.

This

paper

further

proposed

the

concept

of

depression

index,

and

constructed

the

online

healthy

community

depression

patient

portrait

model

ac?cording

to

the

deep

mining

of

the

relationship

between

the

depression

index

and

the

degree

of

depression.

The

experimental

results

showed

that

the

TCNN-GRU

model

can

achieve

better

results

in

the

classification

of

depression

than

the

traditional

convolutional

neu?ral

network

model,recurrent

neural

network

model

and

hybrid

model.

Besides,the

online

healthy

community

user

profile

model

based

on

deep

learning

can

also

judge

the

user\'s

depressive

emotion

and

depressive

state

from

the

perspective

of

text

words:online

health

community;depression;user

portrait;TCNN-

GRU

model;deep

learningi引言随着移动社交网络的发展和普及,越来越多的抑郁症患

线健康社区进行了调查,通过研究得出,这些用户的在线健康

社区大数据可以在一定程度上改善用户的心理健康水平,且

较高的在线健康社区使用量可以有效缓解用户的抑郁症状.

Zhao ;(等[3]从在线健康社区用户评论分析的角度出发,通过

构建用户投票采用模型,分析不同因素如何影响在线健康社

区中的用户评论.Smailhodzic 4等针对患者使用在线健康社

区的目的将其分为不同类型,并对患者的网络信息行为进行

了分析,发现在线健康社区抑郁症患者在个人健康信息管理

行为水平上存在显著的高低差异.上述研究均从文本的主题

特征或者在线评论的数量属性、时间属性进行分析,基于文本

情感角度对在线健康社区用户的情感倾向与抑郁程度进行深

度挖掘的相关研究很少.作为机器学习的一个分支,深度学习经常用来处理文本

情感信息的深度挖掘,常用的模型主要包括如下3种:①基于

卷积神经网络(Convolutional

Neural

Network,CNN)的情感分者倾向于通过在线健康社区宣泄情感、表达自我诉求.在线健

康社区内容具有文本长度短小、形式趋于口语化、语义特征复

杂等特征,传统机器学习的情感判别方法以及基于词典的情

感判别方法难以精准有效挖掘在线健康社区文本的语义特

征.因此,如何利用人工智能技术,精准识别出在线健康社区

用户的情感倾向与抑郁程度,从而辅助抑郁症患者的有效治

疗,成为当前学术界和业界关注的热点问题.部分学者对涉及在线健康社区用户参与行为的影响因

素、参与行为类型、评论信息挖掘等问题进行了一定程度的研

究.Naslund通过研究证明在线健康社区中患有精神疾

病的用户可以通过与其他人的交流,获得一定的医疗保健决

策信息.H.

Erin

Lee等[2]对韩国残障人士使用社交媒体及在收稿日期:202(M)8-20收修改稿日期:2020-l(M)9基金项目:国家社科基金项目(18BTQ033)资助.作者简介:刘海鸥,男,1981年生,博

士,副教授,研究方向为用户画像;姚苏梅,女,1991年生,硕士研究生,研究方向为深度学习和情感分析;何旭涛,男,1997年生,硕士研究生,研

究方向为深度学习;苏妍嫄(通讯作者),女1991年生,博士,讲师,研究方向为数据挖掘.

3期刘海鸥等:基于深度学习的在线健康社区抑郁症用户画像研究573类模型.该模型被大量应用于图像识别、句子匹配、文本分类、

情感分类、智能问答等多种领域.如Wang

Peng[5]基于CNN

模型和词嵌人聚类改善短文本分类效果,Er

Meng

J〇〇[6]在卷

积神经网络中加入注意力机制用于文本分类,实验证明在一

些数据集上分类效果较好,并且具有鲁棒性.②基于循环神经

网络(Recurrent

Neural

Network,RNN)的情感分类模型.该模

型又称为递归神经网络,相较于CNN忽略了语言的前后关

系,RNN更注重时序信息,因此更擅长处理文本信息.如

Tung

Tran 7基于RNN等模型对患者的病例描述进行分析,

I )构建基于TCNN-GRU的抑郁情感分类模型.首先对

在线健康社区平台实验数据集进行抑郁情感分类标注,对于

每条语料进行分词和去停用词等预处理工作,然后通过TC-

NN-GRU模型进行训练,优化直至最后得到的模型能够准确

地判别一条社交评价是否含有抑郁症倾向.2)构建基于TCNN-GRU的在线健康社区抑郁症用户画

像.通过界定用户画像的标签,提出抑郁指数的概念,该指数

综合考虑微博评论条数、微博原创和转发微博条数情况,用于

判断在抑郁症方面用户的分类情况,然后对抑郁指数和患者

实验证明在11种常见精神疾病中分类效果有所提升.③卷积

神经网络和循环神经网络的混合模型.该模型结合了

CNN和

RNN的优点,能够捕捉长距离文本依赖关系,更精准刻画词

语含义,如Banerjee

I;8]、Tong[9]均在RNN的基础上加人

CNN,形成循环卷积神经网络RCNN,实验结果比单纯的深度

学习模型要表现优异.Hassan

Abdalraouf叫则使用RNN模型

替换CNN的池化层,实验表面,该模型在斯坦福大型电影评

论数据集上分类效果得到显著提升.结合上述分析可以看出,深度学习技术为准确识别在线

健康社区抑郁症患者特征奠定了基础,因此可以借助深度学

习模型判定用户的抑郁情感倾向.此外,依据用户的评论进行

用户抑郁状态的识别还需要分析抑郁文本在用户所有评论中

的分布状况.因此,本文将用户画像理念运用到在线健康社区

用户的抑郁程度分析中,提出基于深度学习的在线健康社区

抑郁症用户画像模型,将识别用户的抑郁情感状态分为单条

文本的抑郁情感倾向判断和用户的抑郁状态判断,以此判断

用户的抑郁情感和抑郁状态.本研究有助于对抑郁症患者实

施有针对性的引导和救助,从而为维护我国人民精神健康、践

行“健康中国”战略提供参考.2基于TCNN-GRU深度学习的在线健康社区抑郁

症用户画像模型为了准确识别出抑郁症患者,本文提出基于TCNN-GRU

深度学习的在线健康社区抑郁症用户画像模型,具体流程如

图1所示.图1基于TCNN-GRU的在线健康社区抑郁症用户画像流程

Fig. 1

User

portrait

process

of

depression

in

online

health

community

based

on

TCNN-GRU基于TCNN-GRU深度学习的在线健康社区患者用户画

像模型实现主要包含以下两点:抑郁程度的关系进行分析,构建并完成基于社交发布内容数

量的在线健康社区抑郁症患者画像模型.2.1基于TCNN-GRU的文本分类模型

2.1.1模型构建遵循深度神经网络的一般设计原则,本文提出先使用不

同尺寸卷积核进行卷积后使用门控循环单元的TCNN-GRU

结构,既发挥TextCNN模型的文本局部特征提取能力,又能

发挥门控循环单元(GRU)模型的文本序列信息学习能力,克

服卷积神经网络由于卷积核尺寸固定而导致文本局部特征信

息粒度固定、死板问题,解决了循环神经网络长时依赖问题,

总体实现文本情感分类过程中兼顾全局特征信息和文本序列

信息.TCNN-GRU结构设计如图2所示.Dense 1^^)Dropout [“\"*\"**FlattenConcatenate我想离开....难受…懒觉图2

TCNN-GRU模型内部结构图

Fig. 2

Internal

structure

of

model

TCNN-GRU图2中由词转向为词向量的词映射过程采用了

word2vec

方式,TextCNN层使用3种尺寸的卷积核进行卷积操作,

RNN模型采用其变体门控循环单元(GRU)捕捉文本的序列

信息+ ].深度学习处理文本内容的步骤主要包括:1) 输人层:将微博内容文本切分为词单元,通过词映射

得到词向量,进一步得到文本矩阵,完成微博内容到输人矩阵

的转换.2) 隐藏层(核心层):TextCNN是Kim2014年提出的深度

神经网络模型,将卷积神经网络处理图片信息的理论引申至

文本分析领域,处理文本时具有多种局部感知和共享参数的

特点,能够较好捕获到局部信息,虽然增加了多种尺寸的卷积

核进行卷积,但仍然具有捕获到的局部信息粒度固定的缺点.

因而TextCNN在本模型中的作用为高效处理微博内容语句

的局部特征信息,输出结果为特征向量,并作为下一时刻

GRU模型的输人,GRU通过重置门和更新门对序列信息进

574小型微型计算机系统2021 年行处理.3)隐藏层和输出层:将经过不同卷积核和GRU模型后

的结果进行拼接,加人dropout层防止训练过程中过拟合,最

后进行全连接操作,采用softmax分类器输出TCNN-GRU模

型预测微博内容情感类别概率向量.2.1.2 数据处理过程通过在keras中搭建函数化模型的方式,TCNN-GRU模

型搭建、编译和测试微博内容文本的具体过程如下:后采用全连接层将学到的“分布式特征表示”向量’映射到样本标记空间,判别微博内容文本的标签L即积极、中性和消

极的概率分布,其计算公式如下:p(ys) =

i〇/hnax(

wv* +b\' ) (6)(7)y =

argmaxp(y

U)

其中,y

e /?是微博内容的真实情感标签,使用独热编码表示.是通过训练得出的微博内容情感标签向量,为预测的每

一情感类别概率,选择具有最高概率的标签作为输出.此外训

1) 输人层.输人层将微博内容评论原始数据经过预处理

练目标的最小化损失函数使用交叉熵损失函数.后作为TCNN-GRU预测模型的输人,即原始微博内容经过数

2.2在线健康社区抑郁症用户画像据清洗、中文分词、word2veC词映射转换后输人到预测模型

中,处理的过程可用以下公式表明:A/ =

v,(9v2?…?V,?…?v? (1)其中,?表示连接运算符,v,表示原始微博内容分词后第〖个

词的词映射结果.2)

TextCNN特征提取层.TextCNN特征提取层主要对输

人的文本矩阵进行深度特征提取,本文构建由3种不同尺寸

的卷积核且彼此并行的卷积结构,获取微博内容文本不同粒

度的抽象特征信息.根据卷积神经网络用于文本分类的特点,

将各并联的卷积通道中卷积方式设置为一维卷积,并使用

ReLU激活函数进行激活.经过卷积层处理后原始微博内容

数据被映射到隐层且抽象的特征空间,搭建并联的卷积结构

将其转换输出,经由激活函数,提取得到特征向量,可表示为:C, =/(&<| <8>M +

i>,) =

Re/?(〇),

?M +

bt) (2)C2 =/(

a>2 + 62) =

Relu(〇)2lS>M +

b2) (3)C3 =/(

tt?3 (8>M +

b3) =

Relu(w3 M +

b}) (4)其中2、C,是卷积层1、卷积层2、卷积层3的卷积结果,

、w2、w3为对应卷积层的权重矩阵,是为对应卷积

层的偏差为卷积运算符.在实际模型设计中,同一尺寸的卷积核可以有多个,达到

取得不同特征的目的,然后对其结果进行拼接.在传统TextC-

NN预测模型中,经由卷积操作后的特征向量需要进行最大

池化、平均池化等方式的池化过程,用以达到减少参数数量、

选择代表文本的重要特征等目的.但是池化操作丢失了部分

微博内容文本重要特征信息.因此,TCNN-GRU预测模型选

用GRU摸型代替池化层进一步提取特征的序列信息.3)

GRU序列信息提取层.GRU序列信息提取层对来自

于上一层卷积操作后的向量进行序列信息学习和提取.GRU

设置了更新门和重置门,处理文本序列信息的内部流程如下

所示z, =〇■( ,x,])r,=aCWr-[h,_x,x,})

h, =tanh(

W-[r, *

h,_t ,j;,])

h, =(1

-Z,) *h,_t +z, *h,其中,表示更新门,r,表示重置门为当前时刻隐藏层信

息,为当前时刻输出.重置门用来控制多大程度上擦除或

遗忘上一时刻细胞状态的信息,而更新门则决定多大程度的

保存前一时刻细胞状态的信息.4) 隐藏层和输出层.隐藏层首先将3种卷积、GRU后的信息进行拼接,然后设置dropout层防止训练过拟合,最用户画像通过大量数据分析和提取的用户特征标签,通

过主动或被动地收集用户在互联网上留下的信息,将其加工

成一系列的标签,最后用于识别特定用户[12]、个性化推荐

与精准营销[l4i领域.本文所提的基于深度学习的在线健康社

区抑郁症用户画像模型面向的场景为在线健康社区用户抑郁

症研究,该场景要求模型能够准确识别出在抑郁情绪方面在

线健康社区用户的分类情况,并识别出抑郁症患者.依据文献

[15 ]对在线健康社区的定义,微博亦属于在线健康社区的组

成部分.参考临床上对抑郁症患者的界定,该场景下用户画像

的标签设立为正常用户、轻度抑郁、中度抑郁和重度抑郁,并

在判定这些标签时选择抑郁指数作为衡量标准.2.2.1 抑郁指数抑郁症是一种明显的、持续性的情绪低落状态,为对这一

状态进行表征,陶炯[16]在研究中采用SDS抑郁指数对癌症

患者的心理健康状况进行测评.虽然抑郁症文本分类模型能

够对单条文本判别是否为抑郁症倾向,但无法判定发表该条

语句的用户一定是抑郁症患者,因为发表例如“情绪被拦腰

折断,索性也哭不出来了”语句的患者很有可能只是受到短

暂性刺激做出的冲动反应,短时间内能够迅速平复心情,回复

非情绪低落状态.鉴于此,施志伟[17]从文本分析的角度对网

络用户的抑郁症倾向进行判断时,通过抑郁微博占用户总微

博数的比例来计算用户的抑郁指数,以此来衡量用户个体在

一段时间内的抑郁倾向程度.虽然从文本角度分析抑郁倾向

无需考虑在线视频社区用户的粉丝数等特征,但用户的文本

却可以分为两类,即用户于他人账户言论下的评论以及用户

个人主页内容.因此,本文在设定抑郁指数时参考了一定时间

内博文数量和评论数量,提出基于在线健康社区的抑郁指数,

计算公式如下:其中,%,指一定时间内用户在其他账户下发布含有抑郁倾向

的微博条数,^?指一定时间内用户在其他账户下发布所有微

博条数,指一定时间内用户在个人账户下发布和转发含有

抑郁倾向的微博条数指一定时间内用户在个人账户下发

布和转发的所有微博条数,<〇/是抑郁指数.2.2.2 抑郁程度ZUNG氏抑郁自评量表(SDS)是一种自评量表,可以有

效判别抑郁症的程度,以〇. 5、0. 7、0. 85为阈值分为无抑郁、

轻度抑郁、中度抑郁和重度抑郁.ZUNG氏抑郁自评量表可信

效度高,操作方便等优点,本文通过在线健康社交平台发放抑

郁症自测的链接,内容为ZUNG氏抑郁自评量表,并且注意处理

3期刘海鸥等:基于深度学习的在线健康社区抑郁症用户画像研究575在收集填写人的信息时用户隐私的保密.同时,采用Python

爬虫技术对用户的评论、博客发布内容等进行爬取和标注,以

此计算用户的抑郁指数.通过对获取的链接填写数据分析,将

用户的SDS评分与指数进行皮尔逊相关系数检验,结果显示

?>/指数和和SDS评分在0.01水平(双侧)上显著相关,且r

= 0.5564,说明两者有较强的相关性?通过上述分析,提出抑

郁指数与抑郁程度之间的关系式如下:正常

Z)/E [0,0.50]S(DI)=轻度抑郁 〇/e[0.5〇,0.7〇]中度抑郁 〇/e [0.70,0. 85]重度抑郁

〇/e[〇.85,1.00]其中,S(D/〉指在线健康社区用户的抑郁状态,按照抑郁指数

的分布状况可分为正常、轻度抑郁、中度抑郁和重度抑郁4种.3实验及结果分析3.1实验数据依据文献[15]对在线健康社区的定义,满足信息、用户

和社区3个要素的社区称为在线健康社区.新浪微博是目前

中国最大和最有价值的社交平台,其发布功能、转发、关注、评

论等功能使得中国用户能够便捷分享事件、表达情感和交换

信息n8].新浪微博账户名为“走饭”的用户由于抑郁症离世,

在国内引起巨大轰动,随着时间推移热度没有下降反而该微

博账户因此沉淀了一大批抑郁症患者,成为抑郁症患者的交

流平台.总之走饭”的微博平台既传递信息,沉淀了用户,

又提供了用户线上活动的场所和用户间的信息交流空间,满

足了形成在线健康社区的定义.因此,本研究实验数据从“走

饭”的微博评论下进行爬取,爬取的内容包括用户在“走饭”

微博下的评论以及用户个人账户的原创微博和转发微博文

字,并对获取的文本内容进行是否抑郁的标注.为尽力保证标

注的准确性,本实验采取的主要措施有:①实验参与者了解语

言学、熟悉抑郁症的相关知识;②设置标注的审核程序,对于

初次标注完成的数据进行交叉审核工作.根据深度学习对于

实验数据的平衡性要求,对标注结果进行筛选和过滤,过滤掉

话题内容、图片信息、链接信息等,最终,本实验选取一共18

万余条正例数据(有抑郁倾向的数据)和18万余条负例数据

(非抑郁症数据),其中用户主页微博文字约20万条形成微

博数据集,评论一共约16万条形成评论数据集,两个数据集

均按0. 8: 0. 2的比例划分为训练集和测试集.3.2实验设置1) 实验参数设置.对于实验设备条件和本文的网络构,相关参数设置如表1所示.2) 评价指标设置.准确率是衡量检测正确的真正样本和

真负样本在所有样本中所占的比重,准确率公式:Accuracy =

tpJfpYw^fn x100% (10)其中,Aco>为模型准确率,7P指真正例(模型预测结果和

实际标签均为积极),FP为假正例(模型预测结果为积极,实

际标签却为消极),7W指真负例(模型预测结果和实际标签

均为消极)指假负例(模型预测结果为消极,实际标签却

为积极)[~.实验过程采用平衡数据集,因此采用以上4种指标作为衡量模型训练好坏的标准.表1实验环境和相关配置Table 1 Experimental environment and related configuration硬件/软件模型参数操作系统■7_科旗舰版词向量维度300触麟Scrapy卷积核3 *300;4*300;5*300词向量训练工具Gensim卷积核数量128;128;128分词工具JiebaUnits100编程工具Python优化施Adam高级APIKerasdropout0.5深度学习框架Tensorflow学习率0.0013)对比实验设置.主要包括:① 机器学习模型.选用在实践中验证分类效果较好的支

持向量机(Support

Vector

Machine,SVM)、多层感知机(Mul?tilayer

Perceptron,MLP) 、和随机森林 (

Random

Forest,RF), 文

本特征选用TF-IDF.②

TextCNN模型.TextCNN文本分类模型是Kim在年提出的,论文中说明了模型的结构并进行了对应的实验.论

文的主要关注点在于使用词向量时,词向量的获取方式以及

词向量是否可以进行微调.CNN-rand模型是指词向量随机初

始化并跟随训练进行修正,CNN-static模型、CNN-nonstatic模

型、CNN-multichanne分别对应于使用预先训练好的词向量并

且不可微调、使用预先训练好的词向量并且可以进行微调以

及前面两种模型的混合模型.③

RNN模型.作为循环神经网络(RNN)的最常用的变

体,长短期记忆网络(LSTM,Long

Short-Term

Memory)在文

本分类方面取得卓越成就.EBiLST模型结合了微博文本的特

点,将表情符蕴含的情感向量加人Bi-LSTM模型中用于微博

文本分类.GRU也是RNN网络的常用变体之一,设置了重置

门和更新门对信息进行控制.④ 混合模型.CNN-BiLSTM特征融合模型通过CN型进行文本内部信息的特征提取,又使用双向LSTM模型提

取文本的上下文信息.层次多注意力网络模型(HMAN)主要

出于优化传统深度学习文本分类模型、避免机器学习人工设

计特征的繁琐的目的,结合了

HAN和GRU模型的两种优

点.C-LSTM[2°]核心思想是采用卷积操作后,采取LSTM网络

结构替代原有的池化过程,既保留了因为池化会丢失的重要

信息,又可以提取文本序列信息.3.3实验结果

3

.3.1参数影响为了探究不同超参数对模型影响,首先分析几个重要的

影响因素,然后采取Grid

Search方法选定模型需要的参数.1) 句子长度影响因子.不同用户发表的评论长度不一,文本在转换为计算机可理解的形式时,需要确定固定的文本

长度.当这一变量取得过大,会对模型造成干扰从而降低模型

的准确率;而当这一变量取得过小,将会丢失大部分语义信

息,从而降低模型准确率.对所选取的抑郁症文本数据集,经

过统计性分析后,确立26、28为两个候选值.2) 卷积核高度影响因子.为了获得最优性能时卷积窗口

的尺寸,本文首先确定了在TextCNN模型中使用较多的卷积2014

N模

576小型微型计算机系统2021 年核宽度为[3,4,5],并选取了一个对比实验,其尺寸为[4,5,6].3)Epoch影响因子.Epoch的大小表示整个数据集在训

练时的总迭代次数,迭代次数的设置大小应适中,次数过小,

达不到训练精度,次数太大,往往会导致过拟合,因此将前两

个影响因素进行组合,探究使用不同参数组合的模型随ep?och 的变化关系.将前两个因素名称设置为

len_text、comel_

height,使用不同参数组合的模型为4个,则combination(i)表

示第

i?种参数组合方式

jWDcombination2(len_text=26,cor-

nel_height = [4,5,6]).准确率和epoch的关系如图3所示.1.00combination combination_2[0.9424,0.9396]□ train 100

口0.95〇.95[0.9322,0.9340] caitest train0.90?900.850.800.75a1illll

23456789 10

l1i234l567l89 10

1.00combination_[^rairJ00rcombination_40.95〇100「 95 .

[0.9344,0.9324] °|gjn

〇 9J [0.9426.0.92?[0.9426,0.9298]Ijllll

123456789 101j 10图3摸型准确率随epoch值变化趋势

Fig. 3

Trend

of

model

accuracy

with

epoch

value通过图3可以看出,不同的参数组合分别在epoch为7,

7,6,7时达到模型的最优,当超过该最优epoch时,在测试集

上得到的准确率较为平稳,但是测试集准确率反而下降.同

时,模型准确率最高的是使用<;01^1^0111(1611_161=26,1;01\'-

nel_height = [ 3 ,4,5 ])的模型,在训练集和测试集上准确率分

别为 94. 24% 和 93.96%.3.3.2 对比实验结果实验对比结果如表2所示.可以看出,在微博用户个人主

页内容的数据集和“走饭”微博的评论两个数据集上,本文所

提TCNN_GRU模型都要优于其他模型,在两个数据集上准

确率分别高出次高模型1.56%、2. 47%,比表现最差的模型

提高了 14.62%、13.61%的准确率.整体上而言,传统机器学

习模型在文本分类上的效果和表现并不如深度学习模型;

TextCNN摸型中表现最好的是使用预先训练的词向量并且

设置参数可以微调的模型CNN-nonstatic;

EBiLSTM作为

RNN模型的改进,在分类效果上并没有比LSTM模型好很

多;进一步分析发现,不同于其他类型微博用户,实验对象的

“走饭”评论和用户得主页微博内容中很少出现表情符,因而

加人表情信息并不能对模型提高做出较大的贡献;混合模型

中CNN-BiLSTM由于既引入了外部信息,又提高了文本局部

信息,使用BiLSTM提取序列信息,准确率较高.C-LSTM与

上述模型思路类似,但模型内部结构不同.HMAN使用了层

次注意力,分类效果优良但是分类效果仍然低于本文所述模

型,本模型提高了 3. 89%和3. 60%的准确率.3.3.3 用户画像I)在线健康社区用户抑郁指数画像

依据上述模型对于语句判断结果,并获取“走饭”微博下

一定数量的用户评论情况和发博情况,计算其抑郁指数(D/>和抑郁程度(S(D/)).实验统计了在线健康社区6位用户半

年的动态,以月为单位进行统计,在线健康社区用户抑郁指数

画像如图4所示.表2对比实验结果Table 2

Comparison

of

experimental

results对比实验准确率提高率微博内容走饭评论微博内容走饭评论机器MLP—TF-IDF0.79620.803514.62%13.61%学习RF 一T F-IDF0.86050. 85988. 19%7.98%SVM一TF-IDF0.8350.838810.74%10.08%CNN-rand0.85560.84558.68%9.41%TextCNNCNN-static0.87220.87647.02%6.32%CNN-nonstatic0.89240.88155.00%5.81%CNN-multichanne0.89120.88675. 12%5.29%LSTM0.86740.86857.50%7.11%RNNGRU0.86050.86238. 19%7.73%EBiLSTM0.87060.86957. 18%7.01%混合CNN-BiLSTM0.91230.89573.01%4.39%模型HMAN0. 90350.90363.89%3.60%C-LSTM0.92680.91491.56%2.47%本文模型0.94240.9396图4中,用户1的D/指数经常位于0.5附近,可以成为

正常用户的代表,生活在快节奏,带有压力的社会环境下,除

了发表个人生活等愉快的内容外,也表现了部分消极内容;用

户2的Z)/指数经常位于0. 54). 7的区间内,即经常处于轻度

抑郁状态,说明时常感到压抑,会在“走饭”微博下倾诉,寻找

情感慰藉;用户3的?>/指数经常位于0. 7扑85的区间内,经

常处于中度抑郁状态,对于此类用户需要积极采取措施予以

帮助;用户4的?>/指数这一年内都处于高于0.85以上,处于

重度抑郁状态,对于此类用户,生活已经很少能给他带来愉

悦,长期处于崩溃、孤独、想离世的边缘;而用户5和用户6的

?>/指数经常跳脱某一固定区间,此类用户可能在某个单位月

内受到压力、刺激,而当压力、刺激等得到排解后,其情绪又从

抑郁恢复正常.Jan Feb Mar Apr May Jun-u

-1-0

0.3427O.l];0.48?0.9u2儷lso3Ss

l

fB-0.8?0.7u\'l_S

3ls

su

-40J5l鼴

-0.6

Iii1-0.5 ■lesr

-0.4su

er

e

err5BE^-0.3s

uecr

6I0.430.49-0.2

图4在线健康社区用户抑郁指数画像

1Fig. 4

Profile

of

depression

in

online

health

community

users2)在线健康社区抑郁症用户画像

不同状态和情境下的用户言语色彩较为明显,抑郁症患

者在用词方面更具有不同于其他群体的特点,本文随机抽取

抑郁用户部分“走饭”评论和个人微博内容(如图5所示).抑

郁用户的微博内容呈现出一种孤独、无助、脆弱的状态,其用

词特征主要表现在两个方面:更注重第一人称的使用和更喜

3期刘海鸥等:基于深度学习的在线健康社区抑郁症用户画像研究577欢使用极端词汇.“自己”、“一个”词往往表明抑郁症患者经

ences,2016,373(84) :388403.常注重自我的内心,相对于愉快的“追星族”等群体,他们更[7 ] Tung T,Kavuluru R. Predicting mental conditions based on \" histo?ry of present illness\" in psychiatric notes with deep neural networks

[J]. Journal of Biomedical Informatics, 2017,75S: SI 38-SI 48,

doi : 10. 1016/j. jbi. 2017.06.010.[8 ] Baneijee I,Ling Y,Chen M C,et al. Comparative effectiveness of

convolutional neural network (CNN) and recurrent neural network

(RNN) architectures for radiology text report classification [ J].

Artificial Intelligence in Medicine, 2019,97 : 79-88, doi : 10. 1016/

j. artmed. 2018. 11.004.[9 ] Tong Lin-jie. Situation recommendation for mobile library users\'

portrait based on deep learning [ J ]. Research on Library Science,

2019,41(8) :74-79.[10] Hassan A,Mahmocxl A. Convolutional recurrent deep learning model

for sentence classification [ J ] ? THEE Access ,2018,6 : 13949-13957, doi :

图5在线健康社区抑郁症用户画像

10.1109/ACCESS. . 5

User

portraits

of

patients

with

depression[11] Zhao Fan-jin,Zhang Xing-wang,et al. Voting-SRM senti?ment classification based on multi-feature fusion [ J ]. Journal of

注重使用第一人称,而很少发表关于其他人的言论什么”和

Chinese Computer Systems,2019,40( 11) :2269-2273.“没有”经常用于同一句话所形成的“什么都没有”和“真的”等

[12] Sun Jing-jing. A review of user profiles and its application in librar-

显著的词汇都是极端的用词,可见抑郁症患者用词较为偏激.y[J]. Information Studies of China-.Theory & Application, 2018,

41(8):123-128.4结论与展望[13] Liu Hai-ou,Sun Jing-jing,Chen al. User profiles and its ap?plication in library areas [ J]. Library Theory and Practice,2018,40

针对目前在线健康社区抑郁症患者识别面临的问题,本

(10) :92-97.[14] 5Ge Shu-lin. Research on library user profiles for context-aware recom?文从文本分析的角度出发,提出基于TCNN-GRU深度学习的

mendation service [J]. Research on Library Science ,2018,40(10) :29-35.抑郁情感分类模型和在线健康社区抑郁症用户画像模型,将

[15] Zhao Dong-xiang. Review on domestic research status of online

health community [ J ]. Library and Information Service ,2018,62识别用户的抑郁情感状态分为单条文本的抑郁情感倾向判断

(9):134-142.和用户的抑郁状态判断,以此衡量用户的抑郁情感和抑郁状

[16] Tao Jiong,Ye Ming-zhi,Yi Huan-qiong. Psychosomatic status and

态.实验结果表明,与传统方法相比,TCNN-GRU深度学习模

psychological intervention on cancer patients [ J ]. Journal of Sun

Yat-sen University(Medical Sciences) ,2005,26(5) :582-586.型在抑郁情感分类上能获得了更优的结果,丰富了人工智能

[17] Shi Zhi-wei,Gao Jun-bo, Hu Wen-wen,et al. Depression tendency

与深度学习技术在信息科学领域的方法研究;基于TCNN-

identification model based on text content analysis [ J ]. Computer

GRU的在线健康社区抑郁症用户画像模型也能够从文本分

Systems & Applications,2017,26(12) : 155-159.[18] Liu Xu. Statistical analysis of information dissemination of online

析的角度准确识别用户的抑郁情感和抑郁状态,有助于相关

social users based on public opinion portraits [ J ]. Journal of Mod?组织、个体在进行抑郁症患者识别和治疗时的分析和决策,改

em Information,2019,39(9) :64-73.善患者心理健康水平,最终推进19大“健康中国”战略的顺

[19] Liu Hai-ou,Huang Wen-na,Zhang Yuan-qiang,et al. Survey of the key

issues of situational recommendation in mobile social networks [J].

利实施.当然,本文所做的工作还相对有限,存在需要继续改

Journal of Chinese Computer Systems,2020,41 (9) : 1812-1819.进的地方.例如基于TCNN-GRU的在线健康社区抑郁症用户

[20] Rehman A U,Malik A K,Raza B,et al. A hybrid cnn-lstm model

for improving accuracy of movie reviews sentiment analysis [ J ].

画像研究涉及到识别抑郁症文本、计算抑郁指数和抑郁程度

Multimedia Tools and Applications,2019,78(18) :26597-26613.等流程,本文在该方面仍有继续提升的空间,希望在今后的研

究中进一步完善.附中文参考文献:References

:[9 ]佟林杰.基于深度学习的移动图书馆用户画像情境化推荐[J].

[1 ] Naslund J A, Aschbrenner K A,Marsch L A,et al. The future of

图书馆学研究,2019,41(8) : health care

: peer-to-peer support and social media [ J ]. Epi?[11]

赵乐,麦范金,张兴旺,等.多特征融合的Voting-SRM情感分

demiology and Psychiatric Sciences,2016,25(2)

: 113-122.类研究[〗].小型微型计算机系统,2019,40( 11) :2269-2273.[2 ] Lee H E, Cho J. Social media use and well-being in people with

[12]

孙晶晶.国内外用户画像研究综述[J].情报理论与实践,2018,

physical disabilities

: influence of sns and online community uses on

41(8) : support,depression, and psychological disposition [J]. Health

[13]

刘海鸥,孙晶晶,陈晶,等.用户画像模型及其在图书馆领域中

Communication, 2019,34 (9)

: 1043 -1052.的应用[J]?图书馆理论与实践,2018,40( 10) :92-97.[3 ] Zhao J,Wang J,Fang S,et al. Towards sustainable development of

online communities in the big data era

[14]

谢姝琳.面向情境化推荐服务的图书馆用户画像研究[J].图书

: a study of the causes and

possible consequence of voting on user reviews [J]. Sustainability,

馆学研究,2018,40(10) :29-35 +2018 ,doi: 10. 3390/sul0093156.[15] 赵栋祥.国内在线健康社区研究现状综述[J].图书情报工作,

[4 ] Smailhodzic E,Hooijsma W,Boonstra A,et al. Social media use in

2018,62(9) :134-142,healthcare:a systematic review of effects on patients and on their

[16] 陶炯,叶明志,易欢琼.癌症患者的心身状况及心理干预[J].

relationship with healthcare professionals [ J ]. Bmc Health Services

中山大学学报(医学科学版),2005 ,26(5) :ch ,2016 ,doi

: 10. 1186/sl2913-016-1691 -0.[17] 施志伟,高俊波,胡雯雯,等.基于文本的抑郁情感倾向识别模型

[5 ] Wang P,Xu B,Xu J,et al. Semantic expansion using word embed?[J].计算机系统应用,2017,26(12) : clustering and convolutional neural network for improving short

[18]

刘旭.基于舆情画像的在线社交用户信息传播特征统计分析

text classification[ J]. Neurocomputing,2016,174(13)

:806-814.[J].现代情报,2019,39(9):64-73.[6 ] Er M J,Zhang Y,Wang N,et al. Attention pooling-based convolu?[19]

刘海鸥,黄文娜,张源强,等.移动社交网络情境化推荐关键问题

tional neural network for sentence modelling [ J ]. Information Sci?研究综述[J].小型微型计算机系统,2020,41(9) =1812-1819.

更多推荐

用户,模型,文本