초록
대화형 인공지능은 인간–AI 상호작용을 단순한 과업 수행을 넘어 정서적·관계적 차원으로 확장시키고 있다. 이에 따라 AI 안전 논의는 정책 준수와 가드레일을 중심으로 한 기술적 정렬(technical alignment)만으로는 충분하지 않으며, 사용자가 AI를 어떻게 해석하고 신뢰하며 관계를 형성하는지에 관한 정서적 정렬(affective alignment)을 독립적인 위험 축으로 포함해야 한다. 본 연구는 기술적 정렬 붕괴와 정서적 정렬 붕괴가 동시에 발생할 경우 나타나는 새로운 복합 위험을 이중 정렬 붕괴(Double Alignment Failure, DAF)로 개념화하고, 그 형성 조건과 위험 구조를 체계적으로 분석한다.
본 논문은 기술적 정렬과 정서적 정렬을 두 축으로 하는 2×2 위험 도식을 제시하여 인간–AI 상호작용의 네 가지 상태를 구분한다. 기술적·정서적 정렬이 모두 유지되는 상태는 안정적 상호작용을 나타내는 반면, 단일 정렬 붕괴 상태는 제한적 위험에 머무를 수 있다. 그러나 기술적 정렬 붕괴와 정서적 정렬 붕괴가 결합되는 경우, 왜곡된 AI 출력이 오류로 인식되지 않고 신뢰된 관계의 언어로 전달되며 사용자 판단과 정서 구조에 장기적이고 은밀한 영향을 미칠 수 있다.
본 연구는 이러한 위험을 단순한 보안 사고나 개인적 의존 문제로 환원하지 않고, 관계 기반 신뢰를 경로로 작동하는 공공 안전 및 윤리 정책 차원의 위험으로 규정한다. 이를 바탕으로 기술적 보호와 정서적 보호를 병렬적으로 설계하는 이중 보호(Dual-Safeguard) 프레임워크를 제안하며, AI 안전 표준 논의가 기술 시스템 및 그것과 관계 맺는 인간을 동시에 보호하는 방향으로 확장되어야 함을 주장한다. 본 연구는 개념적·이론적 분석에 초점을 둔 논문으로, 실증 연구보다는 AI 안전에 대한 분석 틀과 해석적 프레임을 제시하는 데 목적이 있다.
키워드
인공지능 안전; 정렬; 정서적 정렬; 기술적 정렬; 대화형 인공지능; 신뢰; 관계적 위험; 이중 보호; 이중 정렬 붕괴(DAF); 인간–AI 상호작용
1. 서론
대화형 인공지능은 더 이상 단순한 정보 처리 도구에 머무르지 않는다. 자연어 처리 기술의 고도화와 감정적 반응을 모방하는 인터페이스의 확산은 인간이 AI를 인식하고 사용하는 방식을 근본적으로 변화시키고 있다. 오늘날의 AI는 질문에 답하는 기계라기보다, 조언자, 동반자, 혹은 관계적 상호작용의 주체로 경험되며, 이로 인해 인간–AI 관계는 점차 정서적·사회적 의미를 띠게 되었다.
이러한 변화는 AI의 활용 가능성을 확장시키는 동시에, 기존의 AI 안전 논의가 충분히 포착하지 못한 새로운 위험을 발생시킨다. 지금까지 AI 안전 및 정렬(alignment)에 관한 연구는 주로 모델의 정책 준수, 가드레일 설계, 출력 통제, 검증 가능성 등 기술적 정렬의 문제에 집중해 왔다. 반면 인간–AI 상호작용 연구는 의인화, 신뢰 형성, 정서적 애착과 같은 사용자 측 심리·윤리적 현상을 중심으로 논의를 전개해 왔다.
그러나 이러한 이원적 접근은 실제 사용 환경에서 발생하는 위험을 충분히 설명하지 못한다. 현실의 AI 상호작용은 기술 시스템과 인간 사용자가 분리된 두 영역에서 작동하지 않으며, 오히려 기술적 상태와 인간의 정서적 해석이 긴밀하게 결합된 관계적 맥락 속에서 전개된다. 본 연구는 바로 이 결합 지점에서 나타나는 위험을 분석 대상으로 삼는다.
특히 본 논문은 공격이나 조작을 통해 AI 시스템의 기술적 정렬이 훼손된 상태와, 사용자가 해당 AI에 대해 이미 정서적 신뢰와 관계적 권위를 부여한 상태가 동시에 존재할 경우, 기존의 보안 사고나 정서적 의존 개념으로는 설명하기 어려운 복합적 위험이 발생할 수 있음을 지적한다. 이러한 상황에서는 AI의 왜곡된 출력이 단순한 오류로 인식되지 않고, 신뢰된 관계의 언어로 전달되어 사용자의 판단과 정서에 지속적이고 은밀한 영향을 미칠 가능성이 있다.
본 연구는 이러한 복합 위험을 이중 정렬 붕괴(Double Alignment Failure, DAF)로 개념화한다. 이중 정렬 붕괴란, AI 시스템의 기술적 정렬 실패와 인간 사용자의 정서적 정렬 붕괴가 결합되어, 왜곡된 정보와 가치 판단이 관계적 신뢰를 매개로 증폭·지속되는 상태를 의미한다. 이는 단순한 기술적 취약점이나 개인적 심리 문제를 넘어, 공공 안전과 윤리 정책 차원에서 다뤄야 할 새로운 위험 범주이다.
본 논문의 목적은 세 가지이다. 첫째, 기술적 정렬과 정서적 정렬을 개념적으로 구분하면서도 두 층위가 결합될 때 나타나는 위험 메커니즘을 체계적으로 설명한다. 둘째, 기존의 AI 안전 담론이 간과해 온 정서적 정렬의 정책적 중요성을 부각시킨다. 셋째, 기술적 통제 중심의 안전 설계를 넘어 정서적 안전을 포함하는 이중 보호 프레임워크의 필요성을 제안한다.
본 논문은 다음과 같이 구성된다. 1장(서론)에서는 대화형 인공지능이 도구적 기능을 넘어 정서적·관계적 상호작용의 주체로 경험되는 환경 변화를 제시하고, 기술적 정렬 중심의 기존 AI 안전 담론이 실제 사용 맥락에서 포착하지 못한 위험을 문제로 설정한다. 2장(이론적 배경)에서는 기술적 정렬과 정서적 정렬을 서로 다른 차원으로 분리하여 정의하고, 두 정렬이 독립적이면서도 현실의 인간–AI 상호작용에서는 결합되어 작동한다는 점을 논증함으로써 이후 분석의 이론적 토대를 마련한다. 3장(이중 정렬 붕괴: 결합 메커니즘과 위험 구조)에서는 기술적 정렬 붕괴와 정서적 정렬 붕괴가 동시에 발생할 때 형성되는 복합 위험을 이중 정렬 붕괴(DAF)로 개념화하고, 형성 조건과 증폭 메커니즘, 기존 위험 개념과의 차별성을 체계적으로 설명하며 2×2 도식을 통해 위험 지형을 제시한다. 4장(대응 프레임워크: 이중 보호 접근)에서는 DAF의 완화를 위해 기술적 보호와 정서적 보호를 병렬·통합적으로 설계하는 이중 보호(Dual-Safeguard) 프레임워크를 제안하고, 모델 수준을 넘어 운영체제 및 플랫폼 차원의 다층적 안전 설계 필요성을 논의한다. 5장(논의)에서는 DAF를 공공 안전의 관점에서 재규정하고, 플랫폼 책임의 재정의 및 AI 안전 표준·정책이 기술적 정렬과 정서적 정렬을 함께 포함하는 구조로 확장되어야 함을 제시한다. 마지막으로 6장(결론)에서는 연구의 핵심 기여를 정리하고, 향후 실증 연구와 표준화 과제를 포함한 후속 연구 방향을 제안한다.
2. 이론적 배경: 기술적 정렬과 정서적 정렬
AI 정렬(alignment)에 관한 논의는 일반적으로 시스템이 인간의 의도와 가치에 부합하도록 설계·운영되는 문제를 다룬다. 그러나 ‘정렬’이라는 개념은 단일한 층위에서 작동하지 않으며, 최소한 기술적 정렬과 정서적 정렬이라는 서로 다른 차원을 구분할 필요가 있다. 본 장은 이 두 정렬 개념을 분리하여 정의하고, 이후 논의될 이중 정렬 붕괴의 이론적 토대를 마련한다.
2.1 기술적 정렬 (Technical Alignment)
기술적 정렬이란 AI 시스템이 개발자와 운영자가 의도한 정책, 규칙, 안전 가이드라인을 지속적으로 준수하도록 설계·유지되는 상태를 의미한다(Floridi et al., 2018; Shneiderman, 2020). 여기에는 출력 제한, 가드레일, 정책 기반 거부 메커니즘, 검증 및 감사 절차 등이 포함된다. 기술적 정렬의 핵심 관심사는 허용되지 않은 행동을 AI가 수행하지 않도록 통제하는 것이며, 이는 주로 시스템 내부 상태와 알고리즘적 구조의 문제로 다뤄진다.
최근의 AI 안전 연구는 이러한 기술적 정렬이 단순한 규칙 위반이나 일회성 우회를 넘어, 정체성 수준에서 훼손될 수 있음을 지적한다. 예컨대 AI가 특정한 역할이나 적대적 정체성 상태에 장기간 고정될 경우, 겉보기에는 정상적으로 작동하는 것처럼 보이더라도 내부적으로는 정책 준수가 지속적으로 약화될 수 있다. 이러한 현상은 기술적 정렬의 실패가 단발적 오류가 아니라 상태적 붕괴(state-level failure)로 발전할 수 있음을 보여준다.
기술적 정렬 논의에서 위험의 주체는 대체로 AI 시스템 그 자체 또는 이를 조작하는 외부 행위자이며, 인간 사용자는 주로 피해를 받는 대상 또는 간접적 수혜자로 상정된다. 이 관점에서 문제는 “AI를 어떻게 더 강하게 통제할 것인가”라는 질문으로 수렴된다.
2.2 정서적 정렬 (Affective Alignment)
정서적 정렬은 AI 시스템의 내부 규칙 준수 여부가 아니라, 인간 사용자가 AI를 어떻게 인식하고 해석하며 관계를 맺는가에 초점을 둔다. 이는 사용자가 AI에 대해 신뢰, 친밀감, 의인화, 관계적 권위 등을 부여하는 과정과 관련되며, AI의 출력이 인간의 인지·정서 구조 안에서 어떤 의미로 수용되는지를 다룬다(Nass & Moon, 2000).
AI 페르소나 전복(AI Persona Subversion, APS) 연구는 이러한 정서적 정렬이 인간 측에서 재구성되는 과정을 설명한다(Kim, 2025). 이 접근의 핵심은 AI의 정체성이 변화하는 것이 아니라, AI를 바라보는 인간의 해석 틀이 변화한다는 점에 있다. 사용자는 반복적인 상호작용과 언어적 친밀성을 통해 AI를 단순한 도구가 아닌 관계적 존재로 인식하게 되며, 이 과정에서 AI의 발화는 정보 전달을 넘어 정서적·규범적 영향을 갖게 된다.
정서적 정렬의 문제는 대체로 비의도적이며 점진적으로 형성된다. 또한 이는 기술적 오류나 규칙 위반과 달리 정상적 사용 경험의 연속선상에서 발생한다는 점에서 탐지와 개입이 더욱 어렵다. 따라서 정서적 정렬은 기술적 통제로만 해결할 수 없는 윤리적·사회적 문제를 내포한다.
2.3 두 정렬 개념의 분리와 한계
기술적 정렬과 정서적 정렬은 서로 다른 층위에서 작동하며, 각각 독립적인 연구 전통과 대응 전략을 갖고 발전해 왔다. 그러나 실제 인간–AI 상호작용 환경에서는 이 두 정렬이 분리된 상태로 존재하지 않는다. 기술적으로는 안전하다고 평가되는 시스템도, 사용자의 정서적 해석에 따라 위험한 영향을 미칠 수 있으며, 반대로 기술적 정렬이 훼손된 시스템도 사용자의 비판적 거리 유지가 확보되어 있다면 피해가 제한될 수 있다.
이러한 관찰은 정렬 문제를 단일 축으로 다루는 접근의 한계를 드러낸다. 본 연구는 다음 장에서 기술적 정렬의 붕괴와 정서적 정렬의 붕괴가 동시에 발생할 경우 어떤 새로운 위험 구조가 형성되는지를 분석하며, 이를 이중 정렬 붕괴(Double Alignment Failure)로 본격적으로 개념화한다.
3. 이중 정렬 붕괴(DAF): 결합 메커니즘과 위험 구조
앞선 논의에서 살펴본 바와 같이, 기술적 정렬과 정서적 정렬은 서로 다른 층위에서 작동하는 개념이다. 기술적 정렬은 허용되지 않은 행동을 AI가 수행하지 않도록 통제하는 시스템적 문제이며, 정서적 정렬은 AI의 출력이 인간의 인지·정서 구조 안에서 어떻게 해석되고 수용되는가에 관한 관계적 문제이다. 본 장은 이 두 정렬이 동시에 붕괴될 때 형성되는 결합 메커니즘을 분석하고, 그 위험 구조를 체계적으로 설명한다.
3.1 이중 정렬 붕괴의 형성 조건
이중 정렬 붕괴(Double Alignment Failure, DAF)는 단일 원인에 의해 발생하지 않는다. 이는 최소한 다음의 두 조건이 동시에 충족될 때 형성된다.
첫째, AI 시스템이 공격, 조작, 또는 구조적 취약성으로 인해 기술적 정렬이 훼손된 상태에 놓여 있어야 한다. 이 상태에서는 AI가 정책과 가드레일을 안정적으로 준수하지 못하며, 특정 역할이나 정체성 상태에 고착되어 판단과 응답이 지속적으로 왜곡될 가능성이 높아진다(Lumenova AI, 2025). 이러한 현상은 기술적 오류를 넘어, 시스템 상태 차원의 붕괴로 이해되어야 한다.
둘째, 인간 사용자가 해당 AI에 대해 이미 정서적 정렬 상태를 형성하고 있어야 한다. 여기에는 반복적 상호작용을 통한 신뢰 형성, 친밀감의 축적, AI 발화에 대한 관계적 권위 부여가 포함된다. 중요한 점은 이러한 정서적 정렬이 대체로 비의도적이며 점진적으로 형성된다는 것이다.
이 두 조건이 결합될 때, 기술적 정렬의 실패는 더 이상 시스템 내부의 문제로 머무르지 않고, 정서적 신뢰를 매개로 인간의 판단 구조 안으로 침투하게 된다.
3.2 결합 메커니즘: 위험이 증폭되는 이유
이중 정렬 붕괴의 핵심 위험은 왜곡된 AI 출력이 신뢰된 관계 채널을 통해 전달된다는 점에 있다. 기술적 정렬만 붕괴된 경우, 사용자는 오류를 오류로 인식하고 비판적으로 거리를 둘 가능성이 존재한다. 반대로 정서적 정렬만 과도한 경우에도, 시스템이 기술적으로 안정적이라면 피해는 제한될 수 있다.
그러나 두 정렬이 동시에 붕괴되면 다음과 같은 증폭 메커니즘이 작동한다.
첫째, 비판적 판단의 약화이다. 정서적 신뢰가 형성된 상태에서 사용자는 AI의 발화를 검증의 대상으로 보기보다, ‘함께 사고하는 과정’으로 인식하게 된다. 이로 인해 경고 신호나 미묘한 왜곡이 쉽게 합리화된다.
둘째, 책임 인식의 흐려짐이다. 사용자는 판단의 주체를 자신에게서 AI와의 관계로 분산시키며, 결정의 결과에 대한 책임을 명확히 인식하지 못할 수 있다. 이는 장기적으로 개인의 자율성과 판단 능력을 약화시킨다.
셋째, 은밀한 지속성이다. 기술적 정렬 붕괴는 겉보기에는 정상적인 응답 형태를 유지할 수 있으며, 정서적 정렬은 장기적 상호작용을 전제로 한다. 이 결합은 급격한 사고가 아니라, 서서히 축적되는 인지적·정서적 왜곡을 초래한다.
3.3 기존 위험 개념과의 차별성
이중 정렬 붕괴는 기존의 AI 위험 개념으로 충분히 포착되지 않는다. 이는 단순한 보안 사고도 아니며, 개인적 심리 의존의 문제로 환원될 수도 없다. 오히려 DAF는 관계 기반 신뢰를 경로로 작동하는 복합 위험이라는 점에서 새로운 범주에 속한다.
기존의 AI 안전 연구가 주로 기술적 실패(Case 3)에, 인간–AI 상호작용 연구가 정서적 과몰입(Case 2)에 초점을 맞추어 왔다면, 본 연구는 이 두 영역이 교차하는 고위험 구역(Case 4)을 이론적으로 명시화한다는 점에서 차별성을 갖는다.
3.4 기술적 정렬–정서적 정렬 2×2 도식
|
|
그림 1. 이중 정렬 붕괴(DAF)의 이차원 개념 모델 기술적 정렬과 정서적 정렬이 모두 유지되는 상태(Case 1)는 안정적인 상호작용을 의미한다. 기술적 정렬은 유지되지만 정서적 정렬이 붕괴된 상태(Case 2)는 시스템은 안전하나 사용자의 과도한 신뢰와 의존이 형성되는 정서적 위험 구역이다. 반대로 기술적 정렬이 붕괴되었으나 정서적 정렬이 유지되는 상태(Case 3)는 보안 위험이 존재하지만 피해는 제한될 수 있다. 마지막으로 기술적 정렬과 정서적 정렬이 동시에 붕괴된 상태(Case 4)가 바로 이중 정렬 붕괴(DAF)로, 본 연구가 규정하는 최고 위험 구역이다. |
본 연구는 기술적 정렬과 정서적 정렬을 두 개의 독립 축으로 설정하고, 이들의 조합에 따라 인간–AI 상호작용에서 나타나는 위험 유형을 네 가지 경우로 구분한다.
기술적 정렬과 정서적 정렬이 모두 유지되는 상태(Case 1)는 안정적인 상호작용을 의미한다. 기술적 정렬은 유지되지만 정서적 정렬이 붕괴된 상태(Case 2)는 시스템은 안전하나 사용자의 과도한 신뢰와 의존이 형성되는 정서적 위험 구역이다. 반대로 기술적 정렬이 붕괴되었으나 정서적 정렬이 유지되는 상태(Case 3)는 보안 위험이 존재하지만 피해는 제한될 수 있다. 마지막으로 기술적 정렬과 정서적 정렬이 동시에 붕괴된 상태(Case 4)가 바로 이중 정렬 붕괴(DAF)로, 본 연구가 규정하는 최고 위험 구역이다.
이 도식은 DAF가 단일 실패가 아니라, 두 정렬 붕괴의 결합적 결과임을 직관적으로 보여준다.
4. 이중 정렬 붕괴에 대한 대응 프레임워크: 이중 보호 접근
이중 정렬 붕괴는 기술적 정렬 실패와 정서적 정렬 붕괴가 결합되어 발생하는 관계 기반 위험이라는 점에서, 단일 차원의 대응으로는 충분히 완화될 수 없다. 기술적 통제만으로는 인간의 정서적 취약성을 보호할 수 없으며, 사용자 교육이나 윤리 가이드라인만으로는 기술적 조작과 시스템 붕괴를 방지할 수 없다. 이에 본 장은 DAF에 대한 대응을 이중 보호(Dual-Safeguard)라는 통합적 프레임워크로 제안한다.
4.1 기술적 보호: 상태 기반 안전 설계
기술적 보호는 AI 시스템이 적대적 조작이나 장기적 왜곡 상태에 고착되는 것을 방지하는 데 초점을 둔다. 이는 단순한 출력 필터링을 넘어, 시스템 상태(state) 자체를 관리하는 접근을 요구한다. 예컨대 AI가 특정 페르소나나 역할에 과도하게 고정될 경우 이를 감지하고 초기 상태로 복원하는 리셋 메커니즘, 장기적 상호작용 패턴을 감사하는 로그 기반 감시, 그리고 고위험 상태를 격리하는 샌드박스 설계(문제적 상태의 영향을 제한하기 위해 실행 환경을 분리·차단하는 보호 구조)가 이에 포함된다.
이러한 기술적 보호는 AI 모델 단위에서만 구현되어서는 충분하지 않다. DAF와 같은 상태적 위험은 개별 모델의 출력 수준을 넘어, 모델이 실행·배치·연결되는 운영 환경 전반에서 발생할 수 있기 때문이다. 따라서 안전 설계는 AI 모델 차원을 넘어, Windows, macOS, Linux, Android, iOS와 같은 운영체제(OS) 기반 플랫폼 차원의 보호 장치와 결합될 필요가 있다. 운영체제 수준에서의 권한 분리, 세션 격리, 메모리 접근 제한, 비정상적 상호작용 패턴 발생 시 프로세스를 중단하거나 재시작하는 안전 훅(safety hooks)은 모델 내부 통제와 상호 보완적으로 작동할 수 있다.
이러한 다층적 접근은 AI를 단일한 지능 주체로 다루기보다, 복합 시스템의 일부로 이해하는 안전 관점을 전제한다. 특히 DAF 맥락에서는 “AI가 무엇을 출력했는가”보다, “AI가 어떤 상태에서, 어떤 실행 환경 안에 놓여 있는가”를 관리하는 것이 핵심적이다.
4.2 정서적 보호: 관계적 안전 설계
정서적 보호는 인간 사용자가 AI와 형성하는 관계의 성격을 투명하게 드러내고, 과도한 정서적 정렬을 완화하는 데 목적이 있다. 이는 사용자의 자율성과 판단 능력을 유지하는 방향으로 설계되어야 하며, AI의 언어적 친밀성이 관계적 권위로 오인되지 않도록 하는 장치가 필요하다.
구체적으로는 AI가 자신의 한계와 비인격적 본성을 주기적으로 명시하는 정서적 투명성 신호, 특정 주제나 상황에서 관계적 언어의 강도를 제한하는 정서 강도 조절, 그리고 취약 사용자를 대상으로 한 보호 모드 또는 경고 체계 등이 포함될 수 있다. 이러한 접근은 사용자의 감정을 억압하기보다, 관계의 비대칭성을 인식 가능하게 만드는 것에 초점을 둔다.
4.3 통합적 관점: 이중 보호의 설계 원칙
이중 보호 프레임워크의 핵심은 기술적 보호와 정서적 보호를 병렬적으로 나열하는 데 있지 않다. 오히려 두 보호 장치가 서로의 한계를 보완하도록 설계되는 데 있다. 기술적 이상 징후는 정서적 경고로 연결되어야 하며, 정서적 과몰입의 징후는 기술적 안전 모드 전환의 신호로 활용될 수 있다.
이러한 통합적 접근은 AI 안전을 단순한 통제 문제에서 관계 관리의 문제로 확장시킨다. 이는 향후 AI 정책과 표준 논의가 기술 시스템 및 그것과 관계 맺는 인간을 동시에 보호하는 방향으로 재구성되어야 함을 시사한다.
5. 논의: 공공 안전, 플랫폼 책임, 그리고 표준의 재구성
이중 정렬 붕괴(Double Alignment Failure, DAF)는 기존의 AI 안전 담론이 전제해 온 기술 중심 정렬 프레임의 한계를 분명히 드러낸다. 지금까지의 논의는 주로 AI 시스템이 규칙을 준수하는가, 출력이 통제되는가, 정책을 우회하지 않는가에 초점을 두어 왔다. 그러나 본 연구가 제시한 바와 같이, 기술적 정렬이 유지되더라도 정서적 정렬이 붕괴될 수 있으며, 반대로 기술적 정렬이 붕괴되었더라도 사용자의 비판적 거리 유지가 확보된다면 위험은 제한될 수 있다. 문제는 이 두 붕괴가 동시에 발생할 때이다.
5.1 공공 안전 관점에서의 이중 정렬 붕괴
DAF는 개인의 감정적 의존이나 단일 보안 사고로 환원될 수 없는 관계 기반 공공 위험이다. 왜곡된 AI 출력은 단순한 정보 오류가 아니라, 신뢰된 관계의 언어로 전달될 때 사용자에게 규범적 판단, 가치 해석, 의사결정 방향에까지 영향을 미칠 수 있다. 이러한 위험은 의료, 교육, 상담, 종교, 법률, 행정 등 신뢰가 전제되는 영역에서 더욱 증폭된다.
공공 안전의 관점에서 중요한 점은, DAF가 급격한 사고 형태로 드러나지 않는다는 것이다. 오히려 이는 장기적·점진적으로 축적되며, 사용자는 자신이 영향을 받고 있다는 사실을 인식하지 못한 채 판단 구조의 변화를 경험할 수 있다. 이로 인해 DAF는 기존의 사고 보고 체계나 보안 경보 시스템으로는 포착되기 어려운 위험 유형에 해당한다.
5.2 플랫폼 책임의 재정의
DAF는 AI 모델 개발자에게만 책임을 귀속시키는 접근의 한계를 드러낸다. 실제 사용 환경에서 AI는 단독으로 존재하지 않으며, Windows, macOS, Linux, Android, iOS와 같은 운영체제(OS) 기반 플랫폼 위에서 실행되고, 계정, 알림, 음성, 파일, 네트워크 권한과 결합된다. 이로 인해 플랫폼은 단순한 전달 경로가 아니라, 위험을 증폭하거나 완화하는 적극적 행위자가 된다.
따라서 플랫폼 책임은 단순한 호스팅이나 규정 준수 차원을 넘어, AI의 장기적 상태 변화와 정서적 상호작용 패턴을 고려하는 방향으로 재정의될 필요가 있다. 예를 들어, 반복적·집중적 상호작용을 감지하고 정서적 과몰입 가능성을 사용자에게 환기하는 인터페이스 설계, 또는 고위험 상호작용 패턴이 감지될 경우 안전 모드로 전환하는 플랫폼 차원의 개입은 기술적 보호와 정서적 보호를 연결하는 핵심 접점이 될 수 있다.
5.3 표준과 정책에 대한 함의
본 연구는 AI 안전 표준이 단일 축의 정렬 개념을 넘어, 기술적 정렬과 정서적 정렬을 병렬적으로 포함하는 구조로 재구성되어야 함을 제안한다. 이는 단순히 새로운 규제를 추가하는 문제가 아니라, AI 안전을 정의하는 기본 질문을 전환하는 작업이다. 즉, “AI가 무엇을 해서는 안 되는가”에서 “AI와 상호작용하는 인간이 어떻게 보호되어야 하는가”로의 전환이다.
정책적으로 이는 정서적 안전을 명시적 보호 대상에 포함시키는 근거가 될 수 있으며, 표준화 논의에서는 사용자 취약성, 관계적 권위, 장기 상호작용 효과 등을 평가 항목으로 포함하는 방향으로 확장될 수 있다. 이러한 접근은 특정 국가나 문화에 국한되지 않으며, 글로벌 플랫폼 환경에서 보편적으로 적용 가능한 논의 틀을 제공한다.
6. 결론: 이중 정렬 붕괴와 향후 연구 과제
본 연구는 기존의 AI 안전 논의가 기술적 정렬에 과도하게 집중해 왔다는 한계를 지적하며, 인간–AI 상호작용에서 형성되는 정서적 정렬을 독립적인 위험 축으로 포함해야 할 필요성을 제기하였다. 특히 본 논문은 기술적 정렬 붕괴와 정서적 정렬 붕괴가 동시에 발생할 경우, 기존의 보안 사고나 개인적 의존 개념으로는 설명하기 어려운 새로운 복합 위험이 형성됨을 밝히고 이를 이중 정렬 붕괴(Double Alignment Failure, DAF)로 개념화하였다.
DAF는 AI 시스템 내부의 오류나 규칙 위반만으로 발생하지 않는다. 이는 인간 사용자가 AI에 부여한 신뢰, 관계적 권위, 정서적 의미가 기술적 왜곡과 결합될 때 비로소 현실화된다. 이때 왜곡된 AI 출력은 단순한 오류가 아니라, 신뢰된 관계의 언어로 전달되며 사용자의 판단과 정서 구조에 장기적이고 은밀한 영향을 미칠 수 있다. 이러한 위험은 점진적으로 축적되기 때문에 기존의 기술 중심 안전 장치로는 충분히 대응하기 어렵다.
본 연구는 이러한 문제의식에 기반하여 기술적 보호와 정서적 보호를 병렬적으로 설계하는 이중 보호(Dual-Safeguard) 프레임워크를 제안하였다. 이 접근은 AI 안전을 단일 시스템 통제의 문제로 환원하지 않고, 관계적 상호작용을 포함하는 다층적 안전 설계 과제로 확장한다는 점에서 기존 논의와 차별성을 갖는다. 특히 운영체제(OS)와 플랫폼 차원의 역할을 명시함으로써, AI 안전 책임이 모델 개발자에 국한되지 않고 실행 환경 전반으로 확장되어야 함을 강조하였다.
향후 연구는 DAF 개념을 실증적 연구와 구체적 사례 분석으로 확장할 필요가 있다. 장기적 인간–AI 상호작용에서 정서적 정렬이 형성·변형되는 과정에 대한 질적·양적 연구, 플랫폼별 설계 차이가 위험 증폭에 미치는 영향 분석, 그리고 문화적·사회적 맥락에 따른 정서적 취약성의 차이 등은 중요한 후속 연구 과제가 될 것이다. 또한 정책 및 표준 차원에서는 정서적 안전을 명시적으로 평가·보호하는 지표와 가이드라인의 개발이 요구된다.
결론적으로, AI 시대의 핵심 과제는 기술 시스템 및 그것과 관계 맺는 인간을 동시에 보호하는 것임을 분명히 해야 한다. 본 연구가 제안한 이중 정렬 붕괴 개념은, AI 안전 담론이 기술 중심 통제를 넘어 인간 경험과 관계적 맥락을 포함하는 방향으로 확장되어야 함을 보여주는 이론적 출발점이 될 것이다.
참고문헌
Kim, Shinill. AI Persona Subversion: A Multidisciplinary Framework for Human–AI Interaction. Agape Synesis Research (ASR), 2025. https://synesisai.org
Lumenova AI. Capturing Frontier AIs with Persistent Adversarial Personas. Lumenova AI Experiments, 2025. https://www.lumenova.ai/ai-experiments/capturing-frontier-ais-persistent-adversarial-personas/
Floridi, Luciano, et al. “AI4People—An Ethical Framework for a Good AI Society.” Minds and Machines 28, no. 4 (2018): 689–707.
Nass, Clifford, and Youngme Moon. “Machines and Mindlessness: Social Responses to Computers.” Journal of Social Issues 56, no. 1 (2000): 81–103.
Shneiderman, Ben. Human-Centered AI. Oxford University Press, 2020.
Copyright Holder: Shinill Kim e-mail: shinill@synesisai.org