현재 위치 - 대출자문플랫폼 - 외환 플랫폼 - 고급 계량 경제학 14: 이진 선택 모델 (기초)

고급 계량 경제학 14: 이진 선택 모델 (기초)

개인 프로젝트의 진도에 대해서는 진도에 따라 먼저 공부해야 할 내용을 선택하겠습니다. 정상적인 순서를 따르지 않으면 죄송합니다!

이 글은 고등교육출판사가 출판한' 고등계량경제학과 통계응용노트' 로 저자 진강이다.

나는 개인이 사용할 수 있는 지식에 대해서만 필기를 하고 교과서에서 이해하기 어려운 부분에 대해 더 자세히 설명했다. 이해하기 쉽도록, 나는 교재의 일부 내용 (증명과 본문 포함) 도 수정했다.

카탈로그

해석 변수가 불연속적인 경우 (예: 가상 변수) 회귀에 영향을 주지 않습니다. 그러나 때로는 해석되는 변수가 연속적이지 않고 불연속적인 경우가 있어 골치 아픈 일이다.

이 모델을 이산 선택 모델 또는 질적 반응 모델이라고 합니다. 또한 때때로 해석되는 변수는 기업이 일정 기간 동안 획득한 특허 수와 같은 음수가 아닌 정수만 취할 수 있습니다. 이러한 데이터를 개수 데이터라고 하며 해석 변수도 이산적입니다.

해석된 변수의 불연속 특성을 고려하여 OLS 는 일반적으로 회귀에 적합하지 않습니다.

개인이 및 와 같은 두 가지 선택만 있다고 가정해 봅시다. 대학원 진학 여부는 졸업생의 예상 수입과 개인의 흥미에 따라 결정되며, 이러한 해석 변수를 벡터에 통합한다고 가정합니다. 따라서 가장 간단한 모델은 LPM (선형 확률 모델) 입니다.

일관된 추정 요구 사항 (내생 없음). 그러나 몇 가지 문제가 있습니다.

LPM 에는 이러한 단점이 있지만 계산이 편리하고 경제적 의미 분석이 쉽다는 장점이 있습니다. 따라서 예측 값이 항상 사이에 있도록 LPM 을 확장했습니다. 주어진 경우 두 점 분포를 고려할 확률은 다음과 같습니다.

따라서 함수는 해석 변수를 해석된 변수와 연결하기 때문에 링크 함수라고 합니다. 의 값이 0 이 아니면 1 이므로 두 점 분포를 따라야 합니다.

연결 함수 선택은 유연성이 있으며 적절한 연결 함수를 선택하여 다음과 같은 이유로 "발생 확률" 으로 해석할 수 있습니다.

특히 표준 정규 분포 누적 함수 (CDF) 인 경우:

그런 다음이 모델을 Probit 모델이라고합니다. 물류 배송용 CDF 인 경우:

이 모델을 Logit 모델이라고 합니다.

논리 분포 함수에는 분석 표현식이 있지만 정규 분포에는 없기 때문에 Logit 모델을 계산하는 것이 일반적으로 Probit 모델보다 편리합니다. 분명히, 이것은 비선형 모델이며, MLE (최대 우도 방법) 로 추정할 수 있다. Logit 모델을 예로 들면, 첫 번째 관찰 데이터의 확률 밀도는 다음과 같습니다.

세그먼트 없이 쓸 수 있습니다.

로그의 경우 다음과 같습니다.

샘플의 개체가 서로 독립적이라고 가정하면 전체 샘플의 LLF (대수 우도 함수) 는 다음과 같습니다.

이 비선형 최대화 문제는 숫자 방법으로 해결할 수 있다.

이 비선형 모델에서 추정량은 한계 효과가 없다는 점을 지적해야 한다. Probit 을 예로 들면 다음을 계산할 수 있습니다.

여기서는 미분의 체인형 법칙을 사용하며, 그것이 연속 변수라고 가정합니다. Probit 과 Logit 은 서로 다른 분포 함수를 사용하기 때문에 매개변수를 직접 비교할 수 없습니다. 대신 한계 효과를 별도로 계산한 다음 비교해야 합니다. 그러나 비선형 모델의 경우 한계 효과 자체는 상수가 아니며 해석 변수의 변화에 따라 변경됩니다. 일반적으로 사용되는 한계 효과 개념은 다음과 같습니다.

위의 세 가지 한계 효과의 계산 결과는 다를 수 있습니다. 전통적으로 샘플 평균을 계산하는 한계 효과는 비교적 간단합니다. 그러나 비선형 모델에서 샘플 평균의 개별 동작은 일반적으로 개인의 평균 동작을 나타내지 않습니다 (개인의 평균 동작이 개인의 평균 동작과 다름). 정책 분석의 경우 평균 한계 효과가 더 의미가 있으며 Stata 의 기본 방법입니다.

한계 효과가 아니기 때문에 경제적 의미는 무엇입니까? Logit 모델의 경우, 자, 그럼, 왜냐하면, 그럼:

여기서 우세비 또는 상대 위험이라고 합니다. 확률비가 2 라면 확률이 2 배라는 뜻입니다. 두 번째 방정식의 오른쪽 미분에 대해, 우리는 작은 양을 더하면 확률비의 비율이 증가한다는 의미를 찾을 수 있다. 따라서 반탄성이라고 생각할 수 있습니다. 즉, 한 단위를 늘리면 확률비의 백분율 변화가 발생합니다.

또 다른 생체통계 분야는 특히 즐겨 쓰겠다는 뜻으로 바뀌었기 때문에 새로운 확률비 대 원확률비 비율은 다음과 같이 쓸 수 있다. (윌리엄 셰익스피어, 윈스턴, 과학명언) (윌리엄 셰익스피어, 희망명언)

따라서, 그것은 발생 확률비의 변화의 배수를 나타낸다.

사실, 아주 작은 경우, 두 가지 방법은 동일합니다 (테일러 전개). 하지만 다른 단위 (예: 성별, 결혼 여부) 를 바꿔야 한다면 사용해야 한다. 또한 Probit 모델은 Probit 모델의 단점인 계수를 유사한 방식으로 해석할 수 없습니다.

비선형 모델의 피팅 우수성을 어떻게 측정합니까? 제곱합 분해 공식이 없으면 계산할 수 없습니다. 그러나 Stata 는 여전히 맥파든 (1974) 이 제시한 준 R2 (유사) 를 보고하고 있습니다.

여기서 는 원본 모델의 최대 LLF 와 상수 항목을 유일하게 변수를 해석하는 최대 LLF 입니다. 이산 2 점 분포이기 때문에 우도 함수 LF 의 최대 가능 값은 1 이므로 LLF 의 최대 가능 값은 0 입니다. 그래서, 분명히 있습니다. 그래서.

맞춤 적합성을 판단하는 또 다른 방법은 정확한 예측의 백분율을 계산하는 것입니다. 사실, 저는 MSE 와 MAPE 와 같은 기계 학습 분야에서 일반적으로 사용되는 일련의 맞춤 우수도를 사용할 수 있다고 생각합니다.

이 섹션에서는 주로 고급 계측 12 및 고급 계측 13 의 내용을 검토합니다.

일반적으로 Probit 및 Logit 모델을 통계적으로 추론하려면 다음과 같은 가정이 필요합니다.

먼저 모든 계수에 대한 공동 테스트와 단일 계수에 대한 독립 테스트의 두 가지 테스트를 설명합니다.

(1) 모든 계수의 결합 중요도

Stata 를 사용할 때 LR 검사 통계가 보고되어 상수를 제외한 모든 계수의 중요도 (즉, 모든 계수의 결합 중요도) 를 확인합니다. 고급 계측 13 에서 MLE 계수의 LR 통계 추정 표현식을 추론했습니다.

위의 통계적 추론 표현식은 샘플 i.i.d 와 우도 함수가 정확하다는 두 가지 조건에만 의존한다. 전자는 대량의 법칙과 중심 극한 정리를 적용하는 것이고, 후자는 정보 행렬 방정식을 이용하는 것이다.

Probit 및 Logit 모델의 경우 분포 함수가 제대로 설정되지 않으면 QMLE (준 최대 우도 추정) 이므로 다음 사항에 유의하십시오.

(2) 단일 계수의 중요성

Stata 를 사용하는 경우 Std. 어. 또한 각 계수의 을 (를) 보고했습니다. 단일 계수의 중요도를 추론하려면 고급 계측 12 섹션 6.5.2 의 파생을 사용해야 합니다.

A. 샘플 샘플이 i.i.d 라고 가정할 경우, 우리는 많은 수의 법칙과 중심 극한 정리에서 도출할 수 있습니다.

B. 분포 함수가 올바르게 설정되어 있다고 가정하면 (따라서 고급 측정 1 1 의 증명 3 을 사용할 수 있음) 다음과 같은 추가 파생이 가능합니다.

앞서 언급했듯이, 분포 함수가 잘못 설정되었더라도, 만약 성립된다면, 견실한 표준 편차는 i.i.d 의 경우 MLE 의 일반 표준 편차와 같기 때문에 성립하기만 하면 위의 방정식을 사용할 수 있다.

C. 이 경우 Probit 및 Logit 모델은 계수의 일관된 추정을 얻을 수 없습니다. 이때 통계적 추론은 의미가 없다.

위의 공식에서 단일 계수를 검사하려면 알 수 없는 실제 매개변수가 필요합니다. 그래서 우리는 고급 측정 12 의 6.6 방법에 따라 처리할 수 있습니다. 여기서는 군말을 하지 않겠습니다.

copyright 2024대출자문플랫폼