【hokenCから一言】
今回の領域は統計学の基礎ということで、比較的馴染みのある用語を復習した感じになっています。現役の保健師学生の頃は今のような便利な統計ソフトがなかったので、手計算の演習をして、「もうだめだ・・」という状況だったかと思います。
心理学統計を学んだ際は、一瞬にして計算結果とグラフが表示される素晴らしさに感動しました。しかし統計学で最も大事なことは、何をどのように検定するのかを選択する際に、学問的なルールを十分理解した上でなくては全く意味をなさないということになります。
ソフトの利用は作業が簡単だからこそ、とんでもない大きなミスを犯してしまう危険性があると痛感しました。ちなみに私(hokenC)は当時、流行り(?)の因子分析を実施することが多かったと思います。数量化する快感とは裏腹に、数量化し勝手解釈してしまう恐ろしさを共に感じながら、作業をしていたように思います。
保健統計のキーワード:保健師国家試験出題基準から
カテゴリーデータ、順序データ、数量データ、ヒストグラム、健康評価尺度、心理発達尺度、活動・行動・社会尺度、正規分布、二項分布、平均、幾何平均、中央値、最頻値、分散と標準偏差、四分位数とパーセンタイル値、相関・散布図、回帰、クロス集計、点推定と区分推定、帰無仮説と統計学的有意性、カイ二乗検定、t検定、相関係数、多変量解析、図表の選択・作成・活用、人口(日本・年齢別・世界)、人口動態統計(死亡・出生と人口再生産・死産・周産期死亡・結婚と離婚)、平均寿命、健康寿命、合計特殊出生率、年齢調整死亡率、標準化死亡比(SMR)、国勢調査、国民生活基礎調査、患者調査、医療施設調査、学校保健統計調査、社会生活基本調査、感染症発生動向調査、食中毒統計調査、国民健康・栄養調査、地域保健・健康増進事業報告、身体障害児・者実態調査、介護保険事業状況報告、衛生行政報告例、福祉行政報告例、国民医療費、介護サービス施設・事業所調査、国際疾病分類(ICD)、国際生活機能分類(ICF)、レセプト情報、特定健診等情報データベース(NDB)、国保データベース(KDB)システム、データの電子化、情報セキュリティ、データベース、レコードリンケージ、一次情報・二次情報、文献検索方法等
統計学とは
得られた集団の特性を把握することを目的とした記述統計学と、それらの指標から集団全体について推論することを目的とした推測統計学に大別される。
測定と尺度:尺度に基づいて測定した値をデータという
量的データ
- 比尺度:原点から等間隔目盛づけができるもの(年齢、身長、血圧等)
- 間隔尺度:等間隔の目盛づけができるもの(気温等)
質的データ
- 順序尺度:順序づけができるもの(成績、順位等)
- 名義尺度:順序づけができないもの・数値に表せないもの(性別・血液型等)
統計グラフの種類
- 円グラフ:構成割合など視覚的にとらえやすい
- 棒グラフ:時系列の変化や各項目の差がわかりやすい
- ヒストグラム:各階級に含まれる度数に比例した大きさの柱を並べる(階級間に空白がない)
- 帯グラフ:時系列での推移を表したりするために用いる
- 折れ線グラフ:時間的経過等による量の変化の様子を表すもの
- 散布図:2変数のデータ値をそのままの形でXーY軸状にプロットするもの(はずれ値の存在について調べられる)
正規分布:左右対称・釣鐘状で一峰性
- 中央値、最頻値、平均値がほぼ一致する
- 平均値±1標準偏差(SD)の範囲に対象集団の68.2%が含まれる
- 平均値±2標準偏差(SD)の範囲に対象集団の95.4%が含まれる
- 母集団から標本抽出を繰り返し行うと、標本平均は母平均を中心とした正規分布を示す
二項分布:考えられる結果がただ2つの互いに排反的な事象で、それらが毎回ある一定の確率で起きる事象の確率分布をいう
代表値(分布を要約する指標)
- 平均値:はずれ値の影響を受けやすい
数値データの分布に対称性がある - 中央値:データの順番が真ん中になる値
順序データまたは数値データで分布が歪んでいる - 最頻値:最も多く現れているデータの値
二峰性の分布
分散と標準偏差
- データのばらつきを示すものには、範囲、分散、標準偏差、四分位範囲などがある
- 標準偏差は観測値が平均からどのくらいばらついているのかを示す
- 分散:偶然誤差の大きさを表す指標となる
個々のデータ値xと平均値mの差(=偏差)を2乗したものを合計し、データの個数nで割ったもの - 標準偏差:平均値を中心に観測値がどれくらいばらついているかを示す
分散の平方根を取ったもの
データが大きいほどデータがばらついていることを示す
標準正規分布の標準偏差は1であり、平均値±2標準偏差の範囲が95.4%のデータに含まれる
四分位数とパーセンタイル
- 四分位数は順序に並べたデータ全体を4つに等分する点を指す
- 第1四分位数と第3四分位数の差を四分位範囲という(四分位範囲を半分にした値を四分位偏差という)
- パーセンタイルとは、データを小さい順に並べ、全体を100%としたとき、小さな方から何%目にあたるかを示す単位
- 箱ひげ図の最小値と最大値を、箱は第1四分位数から第3四分位数の四分位範囲(全体の50%が含まれる)を表す
相関
- 2つの変数の線型関係を示すもの
- 相関係数とは、2つの変数の相関の度合いを数値化したもの
- −1や1に近いほど相関関係が強い(相関が全くない時は0となる)
回帰
- 2つ以上の変数の関係を示すもので、x(独立変数)を用いてy(従属変数)を予測する
- 単回帰分析:y=ax+b (1つの独立変数を用いて従属変数を予測)
- 重回帰分析:y=a1x1+a2x2・・・+b(複数の独立変数を用いて従属変数を予測)
- 独立変数(x)にかける定数aを回帰係数をいう
クロス集計:質的データ同士の関連を分析する方法
縦と横に変数を配置してできるセルに頻度や割合を示したクロス集計表が用いられる
2✖️2のクロス表がよく用いられる(四分表)
点推定/区間推定
- 推定:抽出した標本の値から母集団の特性を推論すること
- 点推定:標本の値をもって母集団の値を推定すること
- 区間推定:母集団の代表値が含まれる範囲(信頼区間)を示す真値を推定すること
95%信頼区間がよく用いられる
検定:標本から得られた情報をもとに、母集団に対する仮説をテストすること
- 対立仮説:予想される仮説は調査・実験を行ってデータを収集し証明する
- 帰無仮説:比較する2つの変数間には「関連がない」とする仮説のこと
帰無仮説が真であるとした場合に得られたデータがどれほど起こりにくい結果であるかを検証するための確率をp値という - 有意水準(危険率)とは、帰無仮説の棄却域だと考える境界域のことであり、通常0.05(5%)を用いることが多い
- p値<有意水準またはp値=有意水準の場合:「帰無仮説は統計学的有意に棄却された」といえる
- P値>有意水準の場合:帰無仮説は棄却できないが、帰無仮説が正しいと示されたわけではない
- 第1種の過誤(αエラー):帰無仮説が正しいにもかかわらず、誤ってそれを棄却してしまうことにより、本来関連がない2つの事象を関連があると判断してしまうこと
- 第2種の過誤(βエラー):帰無仮説が誤っているにもかかわらず、それを棄却しないことにより、関連がある2つの事象を関連がないかもしれないと判断してしまうこと
パラメトリック検定
- t検定:2群間の平均値の差を検定
対応のないt検定・・独立した2群間から得られたデータを比較する場合に用いる
対応のあるt検定・・同一集団から得られたデータを比較する場合に用いる - 分散分析(F検定):2群間以上のデータのばらつきが等しいかどうか(等分散)を検定する
ノンパラメトリック検定
- マンホイットニーのU検定:順序尺度をもつデータを対象とする(対応のない2群間の差を検定)
- カイ2乗検定:2つの変数カテゴリー同士の観察された頻度に、理論値との差(割合の差)があるかどうかを検討する
多変量解析:多くの対象者に複数個の変数の測定値が与えられる場合
性別、年齢、がんのステージ等を同時に補正することができる
調査後の解析段階で用いられる
*多変量解析の種類には、重回帰分析、因子分析、クラスター分析、多重ロジスティック回帰分析等がある
【 文 献 】
- 医療情報科学研究所 編:「保健師国家試験のためのレビューブック 2023 第23版」、メディックメディア、2022
- 荒井 直子 他 編:「公衆衛生看護学.jp 第5版 データ更新版」、インターメディカル、2022
- 医療情報研究所 編:「公衆衛生がみえる 2022-2023」、メディックメディア、2022
- 『標準保健師講座』編集室:「2023年版 医学書院 保健師国家試験問題集」、医学書院、2022
- 医療情報科学研究所:「クエスチョン・バンク 保健師国家試験問題解説 2023 第15版」メディックメディア、2022
- 車谷典男・松本泉美 編:「疫学・保健統計ー看護師・保健師・管理栄養士を目指すー」健帛社、2016
今回は、主に文献(1)を参照し、ノートを作成しました。
次回もこのまま「保健統計」の領域についてまとめていきます。
コメント