#6 評価法を評価する①〜トレーナーのための信頼性、感度とかの話〜

感度とか特異度という言葉を聞くと途端に耳が遠くなってしまう現象、ありますよね。

トレーナーが行う評価法には様々なものがあります。
例えばACL損傷に対するLachman、前方引き出し、ピボットシフト……等々。

しかし、常に考えるべきは「その評価法は意図した評価を真に行うことが出来る方法なのか？」「この検査によるこの結果は何を意味するのか？」という点になります。
これを定量的に示す指標が、信頼性や妥当性、感度、特異度、尤度比といった概念になります。
これらを正確に把握しておくことは、評価を適切かつ効率的に行うために必要不可欠な要素です。

しかし、これらの話は医療統計に関連する分野であり、完全に理解しようとすると多少なり数学的な知識が必要になります。このため(自分もですが)数学に苦手意識がある人はどうしても敬遠してしまいがちです。

とは言っても、統計を実際に研究などで「使う」のでなければ、そこまで難しい話は出ないというのが実際です。
ここ(と次の記事)では、タイトル通り「評価法を評価する」という目的に立って、これらの統計的な概念を少し解説していこうと思います。

今回の内容は、原著論文を基にした最新のエビデンスのレビューというよりは教科書的な内容の整理になります。
それにあたって参考にした文献は、最後の項に「参考文献」としてまとめています。

検査の信頼性
1. 級内相関係数(ICC)の解釈
検査の精度
今回のまとめ
文献

検査の信頼性

あるテストが有効であるかどうかを判定する最初の基準に信頼性reliabilityがあります。
信頼性というのは平たく言ってしまえば、「同じテストをしたときに同じ結果が出るか」というどうかという指標です。

信頼性は、さらに①相対信頼性relative reliability、②絶対信頼性absolute reliability、③内的整合性internal consistencyの3つからなり、それぞれの値は次のようなことを指します(Stokes, 2011)。

種類	定義	その解釈
相対信頼性 relative-	検者間、あるいは2つの時点における結果の一致度	測定した結果に存在するランダムな誤差の大きさを示す
絶対信頼性 absolute-	測定値の中にどの種類の誤差が、どの程度混入しているかを示す方法†	測定誤差以上に必要になる変化の大きさを指す
内的整合性 internal consistency	ある一時点において測定したアウトカム間の一貫性を示す値	測定したアウトカムの各項目と総合スコアの関係性を指す

Stokes(2011)を基に筆者作成。 †絶対信頼性の定義については下井(2011)を参考にした。

級内相関係数(ICC)の解釈

一般的に、信頼性は級内相関係数(intraclass coefficient; ICC)で示され、その値が1に近ければ近いほど信頼性は高いことになります。
例えばPrentice(2016)では信頼性の値とその指標について次のように記されています。

信頼性	指標
0.0-0.5	信頼性は乏しい(Poor)
0.5-0.75	信頼性は中程度(Moderate)
0.75-1.0	信頼性は高い(Good)

Prentice(2016)を基に作成。

しかし、ICCには複数の種類が存在しているため、単に値のみを用いて解釈することは、特に信頼性に関する論文を解釈する上では誤った解釈に陥る可能性があります。
この点に関して、例えば日本理学療法学会連合におけるEBPT用語集でも解説されているため、そちらも参考にしても良いかもしれません。

級内相関係数（ICC）　intraclass correlation coefficients - 一般社団法人日本理学療法学会連合

ある検査の検者内または検者間信頼性（再現性というときもあります）の指標として用いられます．ICCにはCase1，Case2，Case3の3種類があります．Case1は検者内信頼性を表す，ICC（1，1）やICC（1，k）というもので…

この点に関しては、ICCの選択とその解釈に関するガイドラインであるKoo & Li (2016)で詳細に解説されているため、特に論文の解釈の際にはそちらも参照すると良いと思われます。

検査の精度

検査の精度accuracyは、テストにおいて非常に重要な要素になります。
ここでは、精度が高いとは「検査の結果が実際の傷害の有無を反映している可能性が高い」こととしておきましょう。トレーナーが行う検査を考える上ではそのように考えておけば良いと思います。

実際にその傷害を負っている人(=疾患がある人)を陽性と判断でき、かつその傷害を負っていない人(=疾患がない人)を陰性と判断できるような検査が、理想的な理学検査になります。
しかしそのような検査はおよそ存在しないので、実際には「検査では陽性だったのに実際は傷害なしだった」「検査で陰性だったのに実際は傷害ありだった」となることもあります。

一般的に「ゴールドスタンダード」と考えられる手法での検査法の結果を真に傷害の有無を判定する基準として、別の理学検査によって下された判定についてそれぞれ次のように表現します。

実際に傷害あり、検査でも陽性だった = 真陽性true positive
実際に傷害ありだったのに検査では陰性だった = 偽陰性false negative
実際に傷害なしだったのに検査では陽性だった = 偽陽性false positive
実際に傷害なし、検査でも陰性だった = 真陰性true negative

そして、これらをもとにしてその検査の感度や特異度、的中率、尤度比といったものが算出されていきます。

感度・特異度

ある検査において、

感度sensitivityとは実際には傷害ありと判断された人のうち、その検査で陽性となった人の割合を指す。
特異度specificityとは実際には傷害なしと判断された人のうち、その検査で陰性になった人の割合を指す。

例えば、後十字靭帯(PCL)損傷に対する理学検査である後方引き出しテストは、感度は30~100%と広い範囲で報告がなされていますが、特異度は99~100%とほぼ100％の値が報告されています(Magee & Manske, 2021)。ここでは感度は50%、特異度は99%として考えてみましょう。

先の例に当てはまるように、サンプル数を次のように配置してみます。

感度50％とは、実際にPCLを損傷している人100人に対して検査をしたときにそのテストで陽性になる人は50人いるということです。
一方で、特異度99%とは、PCLを損傷していない人に対して検査をしたときには99人がそのテストで陰性になるということです。

したがって、感度が高ければ高いほど「疾患がある人を疾患ありと評価出来る」テストであると考えることができ、逆に特異度が高ければ高いほど「疾患がない人をきちんと疾患無しと評価出来る」テストであると考えることができます。

注意すべきは、感度とは疾患の確率と同義ではないということです。
感度はあくまで傷害ありと判定された人の中での割合という条件付き確率であるので、このテスト陽性が傷害ありと判断する基準にはなりません。
要は、極論としてある傷害Aに対する感度100%のテストXを例に取ると、

傷害Aを持っている人に対してテストXを実施すると100%陽性になる← 〇
テストXを実施して陽性であれば、100%傷害Aを有している← ×

ということです。
では、この感度・特異度をどう使えば良いのでしょうか？

感度が高い検査は陰性の時に効果を発揮し、高感度検査で陰性であればその傷害は除外できる可能性が高くなります。
一方、特異度が高い検査は陽性の時に効果を発揮し、高特異度検査で陽性であればその傷害であると判断できる可能性が高まります。
ですので、後方引き出しテスト(感度0.5, 特異度0.99)においては、陰性であればPCL損傷の可能性が低いと判断できますが、陽性であったときにPCL損傷であると判断するのは危険(そうではない可能性も十分ある)、ということですね。

ところで、なぜ感度は陽性者の割合を指しているのに陰性で効果を発揮するのでしょうか。
これについては次回もう少し深く見ていきます。

的中率

検査結果が実際の傷害の有無とどの程度対応しているかを示す指標を的中率predictive valueと呼ぶ。

検査陽性となった人のうち、実際に疾患があった人の割合を陽性的中率positive-; PPV、
検査陰性となった人のうち、実際に疾患が無かった人の割合を陰性-negative-: NPV
と呼ぶ。

感度・特異度が実際の傷害の有無を基準にしているのに対して、テストの結果を基準にして算出される検査精度が的中率です。
的中率には陽性の人のうち疾患ありの人の割合の指標である陽性的中率(PPV)と、陰性の人が真に疾患なしである確率の指標である陰性的中率(NPV)の二種類があります。

例えば先の後方引き出しテストの例であれば、

PPV: \(\dfrac{50}{50+1}\fallingdotseq 0.98\), NPV: \(\dfrac{99}{50+99}\fallingdotseq 0.66\)

となります。

的中率の値が1.0[100%]に近ければ近いほど、予測精度は高いことを表します。
しかし、この値は有病率prevalenceに影響を受け、有病率が高くなるほどPPVは高くなり、NPVは低くなります。

一例として、次の例を考えてみましょう。以下はStarkey & Brown(2015)に基づく一例です。

ACL損傷に対するスペシャルテストである「マクマヌステスト」(架空のテスト)の的中率を考えたい。
米国の成人人口全体を母集団とするグループ①と、スポーツ医療センターの来院者を母集団とするグループ②で、100,000人を標本として的中率がどのように変化するだろうか？

ここで、グループ①と②におけるそれぞれのPPV、NPVを考えていきます。

*グループ①	ACL損傷(+)	ACL損傷(-)	的中率
マクマヌス(+)	15	18,000	PPV = 15/18,015 *100 = 0.08
マクマヌス(-)	5	82,000	NPV = 82,000/82,005 *100 = 99.99

この集団での有病率は、20/100,000で0.02%となる。

*グループ②	ACL損傷(+)	ACL損傷(-)	的中率
マクマヌス(+)	15,000	14,400	PPV = 15,000/29,400 *100 = 51.02
マクマヌス(-)	5,000	65,600	NPV = 65,600/70,600 *100 = 92.92

この集団での有病率は、20,000/100,000で20.0%となる。

計算すればわかりますが、いずれも感度は75%、特異度は82%ですがPPV、NPVは大きく異なることが分かります(特にPPV)。
したがって、一概にPPVが高い値であるとする文献を見て、それが傷害の有無の確定に使えるとは限らないということですね。

尤度比

感度と特異度の比率を尤度比likelihood ratioと呼ぶ。
尤度比は、ある検査において有病者が無病者より何倍陽性(陰性)になりやすいかの比を指す。
尤度比はさらに陽性尤度比(positive-; +LR)と陰性尤度比(negative-; -LR)に分けられる。

有病率に影響されてその値が変動する的中率に対して、有病率の影響を受けずに検査結果の診断的有用性を提示する情報が尤度比ゆうどひlikelihood ratioと呼ばれる概念です。
もう少しわかりやすく言うと、傷害のある人とない人で同じ所見が見られる確率の比較です。

例えば陽性尤度比(以下+LR)であれば、その数値は有病者が無病者に比べてどの程度検査陽性になりやすいかという程度を表します。

+LRは感度を(1-特異度)で除した値、-LRは(1−感度)を特異度で除した値と定義されます。
つまり、先の後方引き出しテストの例で考えれば、

\(\begin{aligned}+LR=\dfrac{0.5}{1-0.99}=50.0\end{aligned}\)

\(\begin{aligned}-LR=\dfrac{1-0.5}{0.99}=0.51\end{aligned}\)

(厳密には-LRの値は割り切れない値なのでイコールではないのですが、そこらへんは今回は大目に見てください……)

+LRの式を確認すれば明らかなように、これは真陽性と偽陽性の比率を表しています。「有病者が無病者に比べて陽性を示す確率の比」という最初の説明は、ここから理解することも出来ます。

尤度比の解釈に関しては、次回もう少し深く考えていきますが、ここでは次のように考えておくと良いと思います。

尤度比の値は、その検査によって事前の見込みがどの程度「確からしさ」を増すかを示す指標になる。尤度比が1から離れれば離れるほどその増加度合いは増える。
したがって、陽性尤度比は大きければ大きいほど、陰性尤度比は小さければ小さいほど、検査の精度としては高いことを表す。
尤度比の値と解釈についての基準値の一例としては次のものがある。

+LR	-LR	確からしさの見込みの変化
>10	<0.1	大きい、しばしば決定的
5 – 10	0.1 – 0.2	中程度だが重要な変化
2 – 5	0.2 – 0.5	小さい、しばしば重要
1 – 2	>0.5	非常に小さい、重要でない変化

一般的に、+LR>5であれば傷害の確定に、-LR<0.2ならば傷害の除外にそれなりに有効なテストであると考えることが出来るとされる(Prentice, 2016)。

今回のまとめ

トレーナーが行う検査には非常に多くの種類がありますが、それらは異なる検査精度を持つこともあり、あるいはそもそも検査精度非常に低い低質な検査な可能性もあります。

単に検査の種類を覚えるだけではなく、その検査の感度や特異度、尤度比を理解しておくことで効率よく検査を進めることが出来るほか、検査結果の誤った解釈を防ぐことができます。

今回紹介した数値に関するさらなる解釈は、次回に持ち越そうと思います。
(文字数が多くなりすぎてしまったので。。。)

文献

推奨文献

以下の参考文献に挙げた項目は全てとても役立ちましたが。。。
特に次の3つはトレーナーであれば持っておくと良いかと思います。

特に下2つは米国のATの課程でも用いられているようです。内容もトレーナー向けに整理されており、今回の内容以外にも得られるものが多いかと思います。
一冊目はJAMAから出されているEBMのガイドブックで、邦訳版も出ています。

参考文献

加納克己, 高橋秀人. 基礎医学統計学. 改訂第7版. 2019;南江堂
Guyatt G, Rennie D, Meade MO, Cook DJ. eds. Users’ Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice, 3rd ed. McGraw Hill; 2015.
Jiang J. Applied Medical Statistics. 2022;Willey-Blackwell
Prentice WE. Principles of athletic training: a guide to evidence-based clinical practice. 16th ed. McGraw-Hill;2017
Starkey C, Brown SD. Examination of orthopedic & athletic injuries. 4th ed. F.A. Davis;2015
Walters SJ, Campbell MJ, Machin D. Medical Statistics: A Textbook for the Health Sciences. 5th ed. 2021;Wiley-Blackwell

引用文献

Koo TK, Li MY. A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research [published correction appears in J Chiropr Med. 2017 Dec;16(4):346]. J Chiropr Med. 2016;15(2):155-163. doi:10.1016/j.jcm.2016.02.012
Magee DJ, Manske RC. Orthopedic physical assessment. Elsevier;2021
Stokes EK. Rehabilitation Outcome Measures. 2011;Churchill Livingstone
下井俊典. 評価の絶対信頼性. 理学療法学. 2011;26(3):451-461. doi:10.1589/rika.26.451