データベースの人数に騙されるな!
こんにちは。JMDCの寺島です。
ゴールデンウィークも終わりましたね。久しぶりに規制のないお休みだったということで、多くの人が出かけたりしていたのでは?と思います。私のまわりでは、海外に行っている人はいないようですが、少しずつ海外にも出られるようになりつつあり、「コロナ禍」の終わりが見え隠れしてきている、そんな気がしてきています。とはいえ、以前と同じようなスタイルに戻れるのか? マスクを外すタイミングとは? どんな感じになるのかと思う次第です。いずれにしても急激な動きではなく、少しずつという感じで進み、気が付いたら、前と同じようになってるかもしれませんね。
さて、今回は、データベースの規模を表すための「人数」の表現について考えてみたいと思います。
データベースの規模を表すために・・・
JMDCのデータベースでも、規模をあらわすために、
【健保組合の加入者数の1400万人(累計/2005〜直近)のデータ】
【直近1年では1000万人のデータ】
というようにデータの中に格納されている人数(患者数)をさまざまな言い方で表現をしています。
最近では複数のデータベースを保持している会社もいくつもあり、
【診療情報データ、健保組合データXXX万人、病院データXXXX万人】
というような表現をしたりされます。
回答する人によっては、「XX会社のデータは、300施設のデータですね」とか「いや、400くらいあるみたいですよ」という感じで、どこの数字を切り出すかによってその表現が異なることがよくあります。
また、日本薬剤疫学会でも年に1回以下のような調査をしています。比較的この調査が公的な数字として引用されることが多いかなと思います。
日本薬剤疫学会 薬剤疫学とデータベース タスクフォース
「日本における臨床疫学・薬剤疫学に応用可能なデータベース調査」
別の視点では、「2005年診療分からデータを蓄積」というように、どのくらい過去に遡れるデータがあるのかという表現もデータの規模を表していたりします。
「人数」であれ「期間」であれ、どれもデータベースの規模を知るためにさまざまな切り口の情報が存在しているということは皆さんも感じられているところかと思います。
さて、皆さんはこの「数字」をどのように受け止めるでしょうか?
データの規模を表す数字と同時にデータの特性も知ることが大事
「いろいろと調べるのであれば、人数が多いデータがいい」
確かにその通りかもしれません。でも、単純に人数の大小だけでデータを決めることはできません。
どんなことが知りたいのかにより、データのどこに重みを付けるのかが重要になります。
・対象の人を長く追跡したい
・高齢者の人の状態もみてみたい
・病気の発症前から観察がしてみたい
・・・・・
残念ながら、ヒトのすべての医療情報を網羅しているデータは利活用できない状況ですので、「データで何を知りたいのか?」により、人数が多くても調査に適さないケースなどが出てきてしまいます。それを判断するには、それぞれのデータもどんな特性なのかを理解しておく必要があります。実際に人数の印象がどう変化するのか、JMDCデータを例にとって紹介してみます。
JMDC健保データは追跡できるというけれど、どのくらい追跡できるのか?
JMDCの健保データの特性は、患者の追跡性ということはよく言われますし、私たちもよく言います。では、先の述べた累積1400万人という人数で、追跡ができる期間というのがどのくらいなのでしょうか?
<すべての人>
観察可能期間 | 合計:1,330万人 | 割合 |
1年未満 | 228万人 | 17% |
1年以上 | 1,102万人 | 83% |
3年以上 | 732万人 | 55% |
5年以上 | 427万人 | 32% |
7年以上 | 212万人 | 16% |
10年以上 | 78万人 | 6% |
<18歳以上の場合>
観察可能期間 | 合計:1,019万人 | 割合 |
1年未満 | 190万人 | 19% |
1年以上 | 829万人 | 81% |
3年以上 | 531万人 | 52% |
5年以上 | 301万人 | 30% |
7年以上 | 147万人 | 14% |
10年以上 | 55万人 | 5% |
最近、私自身もこうした集計をしてみて、5年以上追跡できる人は多いけれど、累積1000万人以上という数字から考えると、とても減ってしまう、、、そんな印象をもってしまいました。(実際には5年以上追跡できる人は400万人以上いるので、少ないなんてことはないのですが、割合で示すと少なくなってしまうイメージを持たれてしまいます)
データを使うには、事前にどのくらいのN数になるのか知っておくこと
データベースを使った調査は、データから回答を導き出しているので、出てくる結果はアンケート調査に比べれば、確かなものと思われます。でも、決して費用が安いわけではありません。データベースの費用や集計の費用、、、、、、
パッと見たところの「規模を表す数字」に惑わされて、データの選択はしないほうがよさそうです。ご相談いただく方と話をすると、企画当初は十分に対象人数がいると考えていたのに、いざ進めていく中で、人数が激減して、研究対象者がほとんどいなくなってしまった、、という声を聞くことがあります。
データをこれから集めに行く従来の研究とは、データベース研究の場合は異なりますので、どんな調査をするのかで、人数がどのくらい拾えそうなのかを事前に検討することは重要と考えるべきと思います。
データの規模を大きくしていくことは、研究者や調査をする人にとっては、喜ばしいことでありますが、その数字にだけに惑わされず、適切な選択をすることが重要です。
私たちの研究支援においては、当たり前ですが、こうした検討も手厚く実施をしていますので、お気軽にご連絡をいただければと思います。
新企画!《データベース研究の「?」をご相談ください》
データベース研究の企画や何ができるのか?など、お気軽にご相談できる新企画を起ち上げます。データベース研究の進め方やどういう相談をすればいいのかなどなど、取り組みをしたい方がお気軽にご相談いただけます。下記からアクセスし、表示されるカレンダーで日時を選択し、お申込みができます。
お問い合わせはこちら:E-mail gterashima@jmdc.co.jp
Comentarios