데이터 분석의 위험 관리

1990년대 초 Express가 이끄는 미국 신용 카드 금융 회사는 위험 제어 기능을 향상하고 Discovery, Capital 등의 문제를 해결하기 위해 데이터 모델링을 사용하기 시작했습니다.

1995년 American Express? 리스크 통제 모델이 시범운영에 들어갔고, 1997년부터 리스크 통제 시스템이 공식적으로 출범했다. 이후 아메리칸 익스프레스는 빠른 성장을 유지하며 부실채권을 업계 최저 수준으로 줄였다.

에서 2008년 Discover는 글로벌 데이터 분석 센터를 상하이로 이전했습니다. 이 센터에서 흘러나오는 위험 관리 인재는 이미 국내 주요 상호 금융 회사를 채웠습니다.

업종: 모기지 대출(자동차 대출). (이렌대출 등), 소비자 할부대출(휴대전화, 가전제품 등), 소액현금대출(500/1000/1500) 등

위험 통제에 관여하는 기업: 1) 데이터 수집: 신용 데이터, 운영자 데이터, 크롤러, 웹사이트 삽입 지점, 대출 기록 데이터, 블랙리스트, 제3자 데이터 등을 포함합니다.

? 2) 사기 방지 엔진: 주로 사기 방지 규칙과 사기 방지 모델을 포함합니다.

? 3) 규칙 엔진: 일반적으로 사용되는 전략. 주로 데이터 분석 방법을 사용하여 다양한 분야와 다양한 범위의 부실채권 비율을 계산한 다음 신용이 좋은 사람을 선택하여 돈을 빌려줍니다.

4) 리스크 관리 모델 및 스코어카드: 모델 알고리즘에는 큰 차이가 없으나, 시점(대출 전/대출 중/대출 후), 즉 목표에 따라 구분됩니다. 생성 방식이 다릅니다. 일반적으로 대상 변수는 신용 필드의 연체 일수로 정의됩니다. 카드 A는 고객 역사상 가장 많은 연체 일수를 사용할 수 있고, 카드 B는 여러 기간 동안 가장 많은 연체 대출을 사용할 수 있습니다. 목적이 다르기 때문에 C 카드를 만드는 방법도 다릅니다.

5) 수집: 위험 통제의 궁극적인 수단입니다. 이 링크는 지불 기록의 텍스트 설명, 도착률, 사기 라벨 등과 같이 모델에 도움이 되는 많은 데이터를 생성할 수 있습니다.

1) 크롤러는 모바일 앱 정보를 크롤링할 수 있습니다. 모바일 앱은 도구, 소셜, 엔터테인먼트, 금융이라는 네 가지 범주로 나눌 수 있습니다. 각 앱의 수를 세어 보면 네 가지 특성이 있습니다.

2) 교환원 데이터를 통해 고객이 통화한 횟수, 문자 메시지를 보낸 횟수, 데이터 사용량, 연체금 유무 등을 알 수 있습니다.

3) 신용 보고서는 단순히 신용 점수인 경우가 많습니다. 일반적으로 점수가 높을수록 고객 품질이 우수한 것입니다.

4) 신분증에서 연령, 성별, 호적 등 기본 정보로부터 사용자 초상화를 얻습니다.

블랙리스트의 업그레이드 버전은 규칙 엔진입니다. 그러나 그것은 경험에 의해 생성됩니다. 예를 들어, 보험회사는 5회 연속 반품을 하거나 반품률이 80%에 달하는 경우 반품 보험 가입을 거부할 수 있습니다. 규칙을 유지하고 지속적으로 업데이트하고 수정하려면 일반적으로 많은 에너지가 필요합니다. 그렇지 않으면 많은 오판이 발생합니다. 의심스러운 현금 금액, 일정 금액을 초과하는 거래에 대해서는 접근을 거부하거나 집중적으로 접근하는 것이 좋습니다. XX일 이내 대출 신청 건수가 일정 수치 이상일 경우, 거절하는 것이 좋습니다.

예를 들어 공무원, 의사, 변호사 등의 입국 규칙을 설정할 수 있습니다.

예를 들어 참깨 점수가 750점 이상인 경우 직접 대출 원칙을 설정할 수도 있습니다.

타겟 변수 결정 방법: 카드 A를 예로 들어 주로 롤레이트와 연도를 통해 살펴보겠습니다. 예를 들어, 8개월 이상 60일 이상 연체한 고객을 불량 고객으로, 8개월 이상 연체하지 않은 고객을 우량 고객으로 정의할 수 있습니다. 0~60일 이내에 8개월 연체 고객은 불확실하여 표본에서 제외됩니다.

1) 준비 작업: 다양한 모델은 다양한 비즈니스 시나리오를 목표로 합니다. 모델링 프로젝트를 시작하기 전에 비즈니스 로직과 요구 사항을 명확하게 이해해야 합니다.

2) 모델 설계: 모델 선택(스코어카드 또는 통합 모델), 단일 모델 또는 모델 세분화를 포함합니다. 거절 추론이 필요한지, 관찰 기간, 수행 기간, 사용자의 좋은지 나쁜지 정의하는 방법. 데이터 소스 결정

3) 데이터 추출 및 정리: 관찰 기간 및 성과 기간의 정의에 따라 데이터 풀에서 데이터를 추출하여 데이터 정리 및 안정성 검증을 수행합니다. 데이터 정리에는 변칙, 삭제, 중복이 포함됩니다. 안정성 테스트는 주로 시계열 변수의 안정성을 검사하며 지표에는 PSI, IV, 평균/분산 등이 포함됩니다.

4) 특성 추출: 주로 특성 전처리 및 선별을 수행합니다. 스코어카드는 주로 IV로 필터링됩니다. 또한, 특징 교차(둘 이상의 특징의 곱셈/나누/데카르트 곱), 특징 변환 등을 포함하여 비즈니스에 대한 이해를 바탕으로 특징 구축이 수행됩니다.

5) 모델 구축 및 평가: 스코어카드는 로지스틱 회귀로 선택할 수 있으며 xgb는 이진 예측으로만 선택할 수 있습니다. 모델이 확립된 후에는 모델을 평가하고 AUC와 KS를 계산하는 과정이 필요합니다. 일반화 능력을 평가하기 위해 모델을 교차 검증했습니다.

6) 모델 온라인 배포: 위험 제어 백그라운드에서 모델 규칙을 구성합니다. xgb와 같은 일부 복잡한 모델의 경우 모델 파일은 일반적으로 캡슐화를 위해 pmml 형식으로 변환됩니다. 백그라운드에서 파일 및 구성 매개변수를 업로드합니다.

7) 모델 모니터링: 초기 단계에서는 전체 모델과 변수의 안정성을 모니터링하는 것이 주요 목적입니다. 주요 측정값은 PSI(Population Stability Index)입니다. 실제로 psi는 각 점수 간격의 실제 비율과 예상 비율의 차이를 점수로 나눈 값입니다. 10% 미만이면 모델을 업데이트할 필요가 없습니다. 25%보다 낮으면 모델에 집중해야 합니다.

25%보다 크면 모델을 업데이트해야 합니다. 계산 모델 psi는 일반적으로 동일 주파수를 채택하며 10개의 상자로 나눌 수 있습니다.

1. 카드 A, 카드 B, C의 의미와 차이점은 무엇인가요?

스코어카드 신청: 고객 신청 처리 과정에서 고객이 계좌 개설 후 일정 기간 내 부도 가능성 및 부도 위험을 예측하여 신청을 효과적으로 제거합니다. 신용불량자, 비대상고객. 동시에 고객을 위해 위험 가격이 책정되어 금액과 이자율이 결정됩니다. 주로 이용되는 데이터는 이용자의 과거 신용기록, 장기대출, 소비기록 등의 정보이다.

B-card(행동 스코어카드): 계좌 관리 시 계좌 내역의 다양한 행동 특성을 기반으로 해당 계좌의 향후 신용 성과를 예측하는 행동 스코어카드입니다. 첫째는 대출위험을 예방하고 통제하는 것이고, 둘째는 이용자 한도를 조정하는 것이다. 사용되는 데이터는 주로 이 플랫폼에서 사용자의 로그인, 탐색 및 소비 행동에 대한 데이터입니다. 대출 상환, 연체 등 대출 실적 데이터도 있습니다.

c 카드(수금? 점수? 카드): 수금 점수표, 연체 계정에 대한 반응 확률을 예측하고 이에 따른 징수 조치를 취합니다.

세 카드의 차이점:

데이터 요구 사항이 다릅니다. 일반적으로 하나의 카드를 0~1년 동안 대출 신용 분석에 사용할 수 있습니다. B카드는 지원자가 특정 행동을 취한 후 빅데이터를 활용해 분석된다. C 카드에는 더 많은 데이터가 필요하며, 고객 응답 등 속성 데이터는 수집 후 추가해야 합니다.

다양한 특징: 카드는 고객이 입력한 기본정보, 제3자 정보 등 신청자의 배경정보를 주로 활용한다. 그리고 이 모드는 일반적으로 더 신중합니다. B Cali는 많은 거래 기반 기능을 사용합니다.

2. 위험 통제 분야에서 로지스틱 회귀 모델을 선택하는 이유는 무엇입니까?

1) 첫째, 로지스틱 회귀는 다른 고복잡도 모델보다 민감도가 낮기 때문에 강력합니다.

2) 모델이 직관적이고 계수의 의미를 해석하고 이해하기 쉽습니다.

단점은 언더피팅되기 쉽고 정확도도 그다지 높지 않다는 점이다. 또한 데이터 요구 사항이 상대적으로 높고 삭제, 변칙, 특징 * * 선형성이 상대적으로 민감합니다.

3. 기능을 필터링하기 위해 WOE 대신 IV를 사용하는 이유는 무엇입니까?

IV는 그룹 내 표본 비율의 영향을 고려하기 때문입니다. 이 그룹의 WOE가 높더라도 그룹 내 샘플의 비율이 작다면 이 특징의 최종 예측 능력은 여전히 작을 수 있습니다.

4.ROC 및 ks 지표(KS는 0.2~0.75, auc는 0.5~0.9)

ROC 곡선은 TP와 FP를 가로 좌표와 세로 좌표로 취하고 KS 곡선은 TP는 가로 좌표, 세로 좌표는 FP는 세로 좌표, 가로 축은 임계값입니다. KS는 모델에서 가장 큰 차이가 있는 그룹을 찾을 수 있으며, 0.2보다 크면 예측 정확도가 더 좋다고 볼 수 있습니다. ROC는 전반적인 차별화 효과를 반영할 수 있습니다.

5. 상자 분할 방법과 나쁜 단조성

현재 업계에서는 best_ks, 카이제곱 분할 등의 그리디 알고리즘을 사용하여 상자를 분할합니다. 바레이트 단조성은 연속 수치 변수를 순서가 지정된 이산 변수(예: 교육 수준/규모)로 나누는 과정에서만 고려됩니다. 배드레이트 단조성을 고려해야 하는 이유는 주로 비즈니스 이해 때문입니다. 예를 들어, 연체 내역이 많을수록 불량률이 높아집니다.

6. 서로 다른 위험 통제 모델이 일반적으로 동일한 기능을 사용하지 않는 이유는 무엇입니까?

거부된 사람들은 특정한 특성 때문에 가난한 사람들이다. 동일한 특성을 반복적으로 선별하는 경우 시간이 지남에 따라 향후 모델링할 표본에는 그러한 사람이 없을 것입니다. 따라서 기능의 샘플 분포가 변경됩니다.

7. 위험 관리에 사용되는 비지도 알고리즘은 무엇입니까?

클러스터링 알고리즘, 그래프 기반 이상값 탐지, LOF(Local Outlier Factor), 격리된 포리스트 등

8. 카이제곱 분할

카이제곱 비닝은 병합을 기반으로 한 데이터 이산화 방법입니다. 기본 아이디어는 유사한 클래스 분포와 인접한 간격을 병합하는 것입니다. 카이제곱 값이 낮을수록 두 구간이 더 유사합니다. 물론 무한 병합은 불가능합니다. 우리는 이에 대한 임계값을 설정했습니다. 이는 자유도와 신뢰도 측면에서 도출됩니다. 예를 들어 클래스 수가 N이면 자유도는 N-1입니다. 신뢰도는 발생 확률을 나타냅니다. 일반적으로 90%를 얻을 수 있습니다.

best-ks 패킹

카이제곱 패킹과 달리 best-ks 패킹은 단계별 프로세스입니다. 특징값을 작은 것부터 큰 것 순으로 정렬하고, KS의 가장 큰 값이 절단점인 후 데이터를 두 부분으로 나눕니다. 상자 수가 미리 설정된 임계값에 도달할 때까지 이 과정을 반복합니다.

10.추론을 거부하시겠습니까? 추론)

스코어카드 신청은 승인된 신용 고객의 과거 데이터를 사용하여 모델을 구축하지만, 이 모델은 원래 거부된 고객 그룹이 스코어카드 모델에 미치는 영향을 무시합니다. 모델을 보다 정확하고 안정적으로 만들기 위해서는 기각 추론을 통해 모델을 수정하는 것이 필요합니다. 또한 회사 규칙이 변경되면 과거에 거부되었던 고객이 이제는 통과할 수 있게 될 수도 있습니다. 합격률이 낮은 시나리오에 적합합니다.

일반적으로 사용되는 방법: 하드 절단 방법 - 먼저 초기 모델을 사용하여 거부된 사용자의 점수를 매기고 임계값을 설정합니다. 이보다 높은 점수는 좋은 사용자로 표시되고, 그렇지 않으면 나쁜 사용자로 표시됩니다. 그런 다음 레이블이 지정된 거부된 사용자를 샘플에 추가하여 모델을 재교육합니다. 할당 방법 - 이 방법은 스코어카드에 적합합니다.

샘플을 점수별로 그룹화하고 각 그룹의 기본 비율을 계산합니다. 거부된 사용자는 이전 방법에 따라 점수가 매겨지고 그룹화됩니다. 각 그룹의 기본 비율의 샘플링 비율에 따라 그룹 내 기본 사용자를 무작위로 선택하여 불량 사용자로 지정하고 나머지 사용자는 양호한 사용자로 표시합니다. 그러면 레이블이 지정된 거부된 사용자가 재교육을 위해 샘플에 추가됩니다.

11. 모델링 시 모델의 안정성을 확보하는 방법은 무엇입니까?

1) 데이터 전처리 단계에서는 월간 IV의 차이를 계산하고 두 시점의 변수 적용 범위 변화와 PSI의 차이를 관찰하여 시계열 변수의 안정성을 확인할 수 있습니다. 예를 들어 1개월부터 10개월까지의 데이터 세트를 선택하고 K-fold 검증 아이디어를 도출하여 10개의 검증 결과를 얻습니다. 달이 지남에 따라 모델에 주요 추세 변화가 있는지 관찰하십시오.

2) 변수 심사 단계에서는 비즈니스 이해에 어긋나는 변수를 제거합니다. 스코어카드인 경우, 너무 변별력이 있는 변수를 제거하면 모델은 이 변수에 의해 큰 영향을 받게 되며 안정성이 저하됩니다.

3) 교차 검증, 하나는 시계열 교차 검증이고 다른 하나는 K-겹 교차 검증입니다.

4) 안정성이 좋은 차량을 선택하세요. xgb 같은 거요? 랜덤 포레스트 등

12. 고차원 희소 특성과 약한 특성을 처리하는 방법은 무엇입니까?

고차원 희소 특성의 경우 로지스틱 회귀가 gbdt보다 낫습니다. 후자에 대한 페널티는 주로 트리 깊이와 리프 수인데, 이는 희소 데이터에 비해 너무 심각하지 않고 과적합되기 쉽습니다. 로지스틱 회귀 스코어카드를 사용하면 특징을 0과 0이 아닌 것으로 구분한 다음 인코딩할 수 있습니다.

모델링에 스코어카드를 사용하는 경우 일반적으로 약한 기능은 삭제됩니다. 스코어카드에는 너무 많은 기능이 있어서는 안 됩니다(일반적으로 15개 미만). Xgb는 데이터 요구 사항이 낮고 정확도가 높습니다. 약한 기능을 교차 조합하면 예상치 못한 효과가 발생할 수 있습니다.

13. 모델을 온라인에 올린 후 안정성이 좋지 않거나 온라인 차별 효과가 좋지 않은 것으로 나타났습니다. 그것을 조정하는 방법?

모델이 불안정해요. 먼저 모델링 시 형상의 안정성을 고려했는지 확인합니다. 모델 초기에 안정성이 낮은 변수가 발견되면 해당 변수를 삭제하거나 다른 변수로 대체하는 것을 고려할 수 있습니다. 또한, 모델링 시 온라인과 오프라인 사용자 및 사용자 간의 분포 차이를 분석하고, 모델링 시 거부 추론 단계를 고려하여 모델링 표본의 분포가 실제 전체 애플리케이션 사용자에 더 가까워지도록 하였다.

온라인 실적 부진은 변수 관점에서 분석할 수 있다. 성능이 낮은 변수를 제거하고 모델에서 새로운 변수를 발견합니다. 모델이 오랫동안 온라인에 있었고 사용자 속성이 천천히 변경되는 경우 데이터를 다시 가져와서 다음 모델을 만듭니다.

14. 리스크 관리 모델의 콜드 스타트 방법

제품이 처음 출시되었을 때 사용자 데이터가 축적되지 않았거나 사용자가 좋거나 나쁜 성능을 보이지 않았습니다. . 이때 고려할 수 있는 사항은 다음과 같습니다. 1) 모델을 만들지 말고 규칙만 만드세요. 비즈니스 경험을 바탕으로 사용자에 대한 액세스 임계값 설정, 사용자의 신용 기록 및 장기 위험 고려, 제3자 사기 방지 서비스 및 데이터 제품 액세스에 대한 규칙 등 몇 가지 엄격한 규정을 만드세요. 또한 수동 검토와 결합하여 사용자의 신청 자료에 대한 위험 평가를 수행할 수도 있습니다. 2) 유사한 모델을 활용한 데이터 모델링.

15. 샘플 불균형 문제

이 문제를 해결하기 위해 클래스 가중치 조정 외에도 샘플링 방법이 주로 사용됩니다. 일반적인 예로는 순진한 무작위 오버샘플링, SMOTE 및 ADASYN(적응형 합성 오버샘플링)이 있습니다.

16. 교환원 데이터 처리

통화 기록은 통화 날짜에 따라 지난 7일, 지난 반달, 지난 달, 지난 3개월로 나눌 수 있습니다. , 지난 6개월 등 기간. 특정 날짜에 따라 영업일, 휴일 등으로 구분할 수도 있습니다. 통화시간에 따라 하루가 이른아침, 오전, 오후, 저녁으로 구분될 수 있습니다. 전화번호는 소속 지역에 따라 도와 시를 구분하는 방안도 있고, 속달, 성희롱 전화, 금융기관, 중개인 등을 구분하기 위해 번호에 라벨을 붙이는 방안도 있다. 통신사 레이블에 따르면 바이두 모바일 가드(Baidu Mobile Guard)와 소거우 넘버패스(Sogou Number Pass)라고 한다. 블랙리스트에 등록된 사용자인지, 신청자인지, 거부된 사용자인지까지 업무 누적을 기준으로 구분합니다. 사용자와 서로 다른 숫자 태그 간의 커뮤니케이션은 사용자의 커뮤니케이션 습관과 생활 특성을 반영할 수 있습니다.

17. 단계적 회귀

독립변수 간의 관계가 복잡하여 변수 선택을 파악하기 어려운 경우 단계적 회귀분석 방법을 사용하여 변수를 선별할 수 있습니다. 단계적 회귀의 기본 아이디어는 모델에 변수를 하나씩 도입하고, 도입된 각 변수에 대해 f 테스트를 수행하고, 선택된 변수에 대해 T 테스트를 수행하는 것입니다. 처음에 도입된 변수가 나중에 변수를 도입한 후 더 이상 중요하지 않으면 원래 변수가 제거됩니다. 새 변수를 도입할 때마다 회귀 방정식에 중요한 변수만 포함되었는지 확인하십시오.

18. 로지스틱 회귀 분석에서 특성 조합(특성 교차)이 자주 수행되는 이유는 무엇입니까?

로지스틱 회귀는 일반화된 선형 모델로, 특징 조합은 비선형 특징을 도입하여 모델의 표현 능력을 향상시킬 수 있습니다.

인용된 기사의 일부:/content/qita/775233? /article/jxwvkab 9t 7m pwhxj 9 ymu/developer/article/1489429/developer/article/1059236/taenggu 0309/scorecard-function

上篇: 중국 Everbright 신용 카드는 전염병의 영향을 받아 신청을 취소했습니다. 下篇: 예금 및 대출 혜택