[khkim] 학생자율연구 주제 피드백: Biosignal × LLM

smlee님이 공유해주신 내용을 보고 제 생각을 정리해봤습니다.

[학생자율연구 주제]
학생자율연구 지원사업 주제에 대해 생각해본 것 정리해서 공유드립니다.

hci/hai 분야로 주제를 잡아보려고 합니다.
1. ml이 딥하게 들어간 hai 위주로
2. 지원을 받으려면 다음 중 하나 이상을 만족해야 할 것
- 하드웨어
- 대규모 데이터셋 구축
- 고도화된 (대규모/고급인력/생체실험 등 IRB가 까다로운) 유저스터디
- 첨단 모델 사용 (조금 )
3. 가능하면 의료랑 연관있는 걸로.

이 방향성을 가지고 여러 주제를 생각해봤는데, 가장 시의성 있는 건 생체신호와 ML을 결합하는 방향으로 좁혀졌습니다. <Biosignal-driven Empathic Prompt Injector for LLMs>라는 주제로 생체신호를 모델의 보조입력으로 주입하여 결과를 사용자에게 더 만족스럽게 / 성능을 좋게하는 연구를 생각했습니다.

생체신호를 측정하기 위한 하드웨어 구입비 / 유저 스터디 비용을 지원 당위성으로 내세우고, 평가주체측에서 최근 자체 LLM을 구축하는 사업에 예산을 많이 배정하여, LLM 관련 주제를 좋아할 것 같다고 생각했습니다.

CHI 26이나 이번년도 hci/system 컨퍼런스를 지켜보긴 해야하겠지만, 실제 구현한 연구가 많이 나오지 않아 포지셔닝을 구체화하면 노벨티도 있을 것 같습니다.
구글에서 진행한 선행연구가 있긴 합니다. (논문: https://arxiv.org/abs/2506.09108 /

리뷰 : https://velog.io/@sarahhyojin/Sensor-LM-Health-LLM-논문-리뷰 )
(타겟은 일단 CHI 27(9월 초) 생각했는데, 구체적으로 생각하는 탑 컨퍼임)

이 주제에 대해 걸리는 건, 난이도가 있고, 구글 리서치에서 진행하고 있는 만큼 뾰족하게 포지셔닝을 잘 잡아야할 것 같음. 유저스터디 irb 승인받는 게 까다로울 것 같음

1. 전체 방향성 평가

생체신호 × LLM이라는 큰 방향 자체는 괜찮은것 같다. 그리고 LLM 사업 방향과도 맞아서 좋다.

하드웨어 구입비 + 유저스터디 비용이라는 지원 당위성도 자연스럽게 성립한다.

다만 "Biosignal-driven Empathic Prompt Injector for LLMs"라는 현재 주제는 그대로 가기엔 선행연구 포화도가 높고, 포지셔닝이 애매한것 같다. 아래에 근거와 대안을 정리했다.

2. 선행연구 현황 — 생각보다 많이 탐색된 영역

현재 제안과 거의 동일하거나 유사한 연구가 이미 여럿 존재한다:

연구	연도	내용	규모
EmLLM (PhysioCHI Workshop)	2024	EDA/BVP/피부온도 → CNN 스트레스 예측 → Falcon-7B에 주입, 공감적 챗봇	N=8 파일럿
Empathic Prompting (Stacchio et al.)	2025.10	얼굴표정 → valence/arousal 추출 → DeepSeek 프롬프트에 실시간 주입	N=5
Schmidmaier et al. (PACM HCI)	2025	표정 비언어 단서 → 멀티모달 LLM 공감 챗봇	N=200, but perceived empathy 유의미하지 않음
WellMax (Google, SenSys)	2025	웨어러블 센서 힌트 → LLM 에이전트 sensor-in-the-loop	5개 시나리오
VT 박사논문	2026.01	Empathic LLMs using physiological + behavioral signals for stress management	학위논문 전체
SensorLM (Google)	2025	59.7M 시간 웨어러블 데이터 → 센서-언어 foundation model	103K명

핵심 문제: "생체신호를 LLM 프롬프트에 주입해서 공감성/만족도를 높인다"는 아이디어 자체가 이미 탐색된 영역이다. 특히 "Empathic Prompting"이라는 이름까지 거의 동일한 논문(Stacchio et al.)이 존재한다.

추가로, N=200 규모의 Schmidmaier et al. 연구에서도 perceived empathy 증가가 통계적 유의성을 달성하지 못했다는 점은 시사하는 바가 크다.

3. 지원사업 요건 충족도 분석

학생이 제시한 4가지 요건별로 현재 주제의 충족도와 리스크를 정리했다.

3-1. 하드웨어

충족 가능: 생체신호 측정 장비(GSR/PPG/EDA 센서, 혹은 EEG 헤드밴드) 구입이 필요하므로 하드웨어 지원 당위성은 명확하다.
리스크: 장비 선택에 따라 예산 편차가 크다.
- Consumer-grade (Empatica E4 후속, ~300만원 / Muse EEG ~50만원): 접근성 좋으나 신호 품질 이슈
- Research-grade (Biopac, Shimmer3): 고품질이나 대당 500만원+
- 심사위원 관점에서 "이 장비가 왜 필요한지"를 설득하려면, 단순히 "생체신호를 측정하기 위해"가 아니라 "이 연구에서만 가능한 특정 측정이 필요하기 때문에"로 구체화해야 한다.
전략: consumer-grade 웨어러블(예: Empatica EmbracePlus, Galaxy Watch의 Samsung Health SDK)로 가면서, "실제 사용자 환경에서의 생태학적 타당성(ecological validity)"을 명분으로 세우는 게 예산 효율과 설득력 모두 잡을 수 있다.

3-2. 대규모 데이터셋 구축

충족 어려움: 생체신호 데이터셋은 직접 수집해야 하는데, 유저스터디 규모(N=30~60 수준)로는 "대규모"라고 부르기 힘들다.
대안: 기존 공개 데이터셋(WESAD, CASE, LLaMAC 등)을 활용하면서, 직접 수집하는 데이터는 "한국어 사용자 대상 biosignal-LLM interaction dataset"이라는 프레이밍으로 데이터셋 기여를 주장할 수 있다. 특히 한국어 맥락의 생체신호-감정 대화 데이터는 현재 존재하지 않으므로, 규모가 작더라도 "최초"라는 가치가 있다.
전략: "대규모"보다는 "최초의 한국어 biosignal-annotated LLM interaction dataset 구축"으로 프레이밍을 바꾸는 게 현실적이다.

3-3. 고도화된 유저스터디 / IRB

충족 가능하나 리스크가 가장 높은 요건이다.
IRB 우려:
- 생체신호 수집 자체는 비침습적이므로 IRB 난이도가 극단적이지는 않다.
- 다만 "감정 추론 → LLM 응답 조절"이 mental health / 감정 조작으로 해석될 경우, IRB 심의 등급이 올라갈 수 있다.
- 특히 "empathic" / "mental health support" 프레이밍을 쓰면 취약집단 관련 추가 심의가 붙을 가능성이 높다.
전략: IRB를 간소화하려면 "감정 지원/정신건강"이 아닌 "인지부하 기반 task performance 최적화" 또는 "대화 만족도 평가" 같은 프레이밍으로 가는 게 좋다. 피험자도 "건강한 성인"으로 한정하면 심의가 빨라진다.
타임라인 주의: 서울대 IRB 심의가 보통 4~8주 소요되므로, CHI 27 (9월 초 마감)을 타겟으로 하면 5월 초까지는 IRB 신청이 들어가야 할것 같음. 역산하면 주제 확정과 프로토콜 설계가 4월 중순까지 끝나야 함.

3-4. 첨단 모델 사용

부분 충족: LLM을 사용하는 것 자체가 첨단 모델에 해당하지만, "LLM API를 호출한다"만으로는 차별화가 약하다.
강화 방안:
- 생체신호 인코딩을 위한 별도 모델(예: 1D-CNN, transformer encoder)을 직접 학습시키면 ML 깊이가 올라감
- "프롬프트 엔지니어링만으로 해결"이 아닌 "생체신호 → 임베딩 → LLM 컨텍스트 주입" 파이프라인을 설계하면 시스템 기여도가 명확해진다

요건 충족 종합

요건	충족도	핵심 전략
하드웨어	★★★★	Consumer-grade 웨어러블 + ecological validity 명분
대규모 데이터셋	★★☆☆	"최초 한국어 biosignal-LLM dataset"으로 프레이밍 전환
고도화된 유저스터디	★★★☆	IRB 프레이밍 주의 (감정→인지부하), 타임라인 역산 필수
첨단 모델 사용	★★★☆	서울대 자체 LLM 연계 + 생체신호 인코더 직접 학습

4. 포지셔닝 제안 — 3가지 대안

큰 방향(생체신호 × LLM)은 유지하되, 기존 연구와 차별화되는 angle을 제안한다.

안 A: 인지부하 기반 Task Performance 최적화

"Biosignal이 공감이 아닌 LLM task performance를 올리는가?"

사용자의 인지부하(cognitive load)를 GSR/PPG로 실시간 추정 → LLM 응답의 복잡도/길이/설명 깊이를 동적 조절
정보 검색, 코딩 지원, 학습 튜터링 같은 task-specific 시나리오에서 task completion rate, 정확도, 시간 등 객관적 지표로 평가
장점: (1) 감정이 아닌 인지 상태 기반이라 선행연구와 분리됨, (2) 객관적 지표 → 통계적 유의성 확보 용이, (3) IRB 부담 낮음, (4) 서울대 LLM + AI 교육 방향과 맞물림
위험: EEG 쓰면 난이도 높음. GSR/PPG만으로 인지부하 proxy를 쓸 수 있는지 선행연구 확인 필요

안 B: Cross-Cultural Biosignal Grounding

"한국어 사용자의 감정 표현 패턴은 biosignal-LLM 매핑에 어떤 차이를 만드는가?"

한국어 사용자 대상 GSR/PPG 감정 추정 → 한국어 LLM(서울대 자체 LLM)에 주입 → 영어 LLM 대비 cross-cultural 차이 분석
장점: 비영어권 첫 biosignal-LLM empathy 연구, CHI에서 cross-cultural 연구 환영, 서울대 LLM 연계
위험: 비교군(영어권) 데이터 확보 어려움. 서울대 외국인 학생으로 within-campus 비교 시 규모 작아짐

안 C: "Biosignal이 정말 도움이 되는가?" 비판적 실증 (추천)

"생체신호 주입은 self-report 대비 언제, 어떤 조건에서 실제로 도움이 되는가?"

3조건 비교: (1) text-only LLM, (2) self-reported emotion + LLM, (3) biosignal-inferred emotion + LLM
다양한 task type(감정 지원, 정보 검색, 의사결정 지원)에 걸쳐 비교
장점: (1) negative result도 CHI에서 논문이 됨, (2) 실험 설계가 깔끔하고 스토리 명확, (3) "하드웨어 투자가 정당화되는가?"라는 실용적 질문 → 심사위원에게 어필, (4) Schmidmaier et al.의 실패를 발전적으로 계승
위험: 통계적 파워 확보를 위해 N=60+ 필요 → 실험 운영 비용과 시간

5. 추천 순위와 근거

순위	안	이유
1	안 C (비판적 실증)	가장 현실적, 논문화 가능성 높음, 실험 설계 깔끔
2	안 A (인지부하 성능)	노벨티 가장 뚜렷, but 기술적 난이도 높음. GSR/PPG로 인지부하 proxy 가능하면 추천
3	안 B (Cross-cultural)	스토리 좋으나 비교군 확보가 약점

6. 다음 단계

위 3가지 안 중 관심가는 방향을 골라야할 것 같음
선택한 방향에 대해 선행연구 5~10편 심층 조사
구체적 실험 설계(피험자 수, 장비, 태스크, 평가지표) 초안 작성
IRB 프로토콜 초안은 주제 확정 후 2주 이내에 시작해야함.

참고 논문 리스트

Google SensorLM: https://arxiv.org/abs/2506.09108
WellMax (Sensor-in-the-Loop LLM Agent): https://dl.acm.org/doi/10.1145/3715014.3722082
EmLLM (Physiological Data + LLM): https://arxiv.org/abs/2404.15351
Empathic Prompting (Stacchio et al.): https://arxiv.org/abs/2510.20743
Nonverbal Cues in Empathic MLLM Chatbots (Schmidmaier et al.): https://dl.acm.org/doi/10.1145/3743724
LLaMAC Dataset (Biosignal Affective Computing): https://www.nature.com/articles/s41597-025-06165-4
PHIA (Wearable Data → Health Insights): https://www.nature.com/articles/s41467-025-67922-y
PH-LLM (Google): https://research.google/blog/advancing-personal-health-and-wellness-insights-with-ai/
VT Dissertation (EmLLM for Stress): https://vtechworks.lib.vt.edu/items/fd6d19d5-453e-4da1-a039-cf1ca65eb010

참고:

SensorLM은 FM쪽에 좀 더 가까움.

https://arxiv.org/pdf/2506.09108

Sensor LM, Health LLM 논문 리뷰

이전의 헬스 파운데이션 모델들은 웨어러블 신호를 직접 모델 인풋으로 넣어주었다면, 이제는 Raw Signal을 아예 LLM 모델 인풋으로 넣었을 때도 꽤 괜찮은 예측을 하는 연구 결과들이 나오고 있다.

velog.io

'Others' 카테고리의 다른 글

[khkim] SEFLA - AMR 논문 확장 가능성 리서치 정리 (0)	2026.04.27
[smlee] 학생자율연구 기획 (0)	2026.03.30
Zhejiang Provincial People’s Hospital 데이터셋(MLUA 데이터, TSD) (0)	2026.02.18
2026년 멀티모달팀 팀소개 (0)	2026.01.27
❗ How to use MINICONDA in SNU ECE server ❗ (0)	2026.01.17

1. 전체 방향성 평가

2. 선행연구 현황 — 생각보다 많이 탐색된 영역

3. 지원사업 요건 충족도 분석

3-1. 하드웨어

3-2. 대규모 데이터셋 구축

3-3. 고도화된 유저스터디 / IRB

3-4. 첨단 모델 사용

요건 충족 종합

4. 포지셔닝 제안 — 3가지 대안

안 A: 인지부하 기반 Task Performance 최적화

안 B: Cross-Cultural Biosignal Grounding

안 C: "Biosignal이 정말 도움이 되는가?" 비판적 실증 (추천)

5. 추천 순위와 근거

6. 다음 단계

참고 논문 리스트

'Others' 카테고리의 다른 글

티스토리툴바