ゲノムスキャン:真の連鎖は同定が困難

Atmuller J, et al. Genomewide scans of complex human diseases: true linkage is hard to find. Am J Hum Genet 69: 936-950, 2001.

訳者コメント:

ゲノムスキャンのレビューです.自閉症に関するゲノムスキャンは,IMGSACとPhilippeらの報告だけしか含んでいませんが,報告されている疾患・状態の中では兄弟内リスク比の最高値は自閉症の75です(ダントツです).自閉症の場合も,現時点で再現性がありそうなのは第7染色体長腕だけですが,他の場合でも報告された連鎖ピークにはほとんど再現性がありません.全ての連鎖ピークを検討して,遺伝子数の多い(理論的遺伝子密度が高い)染色体でより陽性ピークが検出される傾向が指摘されており,これらの陽性ピークの大半が偽陽性である可能性が示唆されています.しかし,この解析では長さあたりの遺伝子密度を連続して算出しないと意味がないのかもしれません.連鎖解析ではしょせん難しいというのが結論で,近い将来高密度SNP関連解析が必要となることを示唆しています.

(概訳)

概要:複数の遺伝的決定因子と複数の環境決定因子が絡んでいる複雑なヒトの疾患の多くは,この20年の間にその発生率が増加してきた.この同じ20年の間に,かなりの研究努力と研究費が複雑なヒトの疾患の易罹患性遺伝子座を同定することを目的とした全ゲノムスクリーニングに費やされた.しかし,全ゲノムスクリーニングを基にしたポジショナルクローニングの試みにおける成功は限定されており,複雑なヒトの疾患の遺伝性病因に関係する基本的な疑問の多くは未解決のままである.複雑なヒトの疾患に応用された場合のポジショナルクローニングの理論的枠組みの成功例をレビューし,現在行われている全ゲノムスキャンの特徴を検討するために,我々は系統的なMedline検索で見つかった101件の複雑なヒト疾患の研究のデータベースを作成した(2000年12月現在).我々は31の異なるヒトの複雑な疾患に関して,その研究デザイン,方法,結果を比較検討した.LanderとKruglyakが提唱した有意分類を基準として使い,それぞれの研究が成功したのかどうかを判定した.66.3%(n=67)の研究はLanderとKruglyakの基準では有意な連鎖を示すことができず,同じ疾患に関する報告でも結果はしばしば矛盾していた.我々の解析では,単一の研究デザインで首尾一貫してより有意な結果を出すものは存在しなかった.多変数解析では,研究の成功頻度を増すことの独立して関連する唯一の因子が,(a)研究される個々人の数を増やすことと,(b)単一の民族群からのサンプルを使った研究の二つであることが示唆された.複雑なヒトの疾患における全ゲノムスクリーニングに基づくポジショナルクローニングは,予想よりもより困難であることが証明された.また,特異的な疾患易罹患性遺伝子座のポジショナルクローニングは未だに成功していない.

イントロ:複雑なヒトの疾患は,複数の相互作用のある遺伝素因や環境決定因子を背景としている.そのような疾患の多くが,先進国においてはこの20年の間に発生率が増加しており,主要な臨床的および経済的な問題となっている.同じくここ20年で,たくさんの複雑なヒトの疾患の遺伝的原因がその病態のより良い理解のための手段として徐々に強調されつつあり,最終的なゴールは予防戦略の改良,診断方法の改善,そして治療の進歩である.過去10年の間に,かなりの努力と費用が,複雑なヒトの疾患の易罹患性に寄与している遺伝子座を同定することを目的に,全ゲノムスクリーニングに費やされた.

ポジショナルクローニングは,家系内で問題となる疾患表現型と共に伝播している(遺伝的連鎖)染色体部位の同定と共に始まる.ポジショナルクローニングは,嚢胞性線維症のように単純なメンデル遺伝である疾患の原因となる遺伝子の同定においては非常に有効であった.ポジショナルクローニングの最終的なゴールは,問題となる表現型に関連する遺伝子のコーディング領域あるいは制御領域内の遺伝子配列変異を同定することである.しかし,そのようなポジショナルクローニングへの努力が成功することは限られており,複雑なヒトの疾患の遺伝的疫学に関連する基本的な疑問のほとんどは解答が得られていないままである.単一遺伝子性の形質において発見されたこととは対照的に,結果はしばしばがっかりするものかあるいは矛盾するものであった.全ゲノムスクリーニングから得られる連鎖データの大部分はまとめたり説明することが困難である.

複雑なヒトの疾患に応用されたポジショナルクローニングの実例の成功例をレビューし,これまでに行われた全ゲノムスキャンの特徴を検討することを目的として,我々は系統的なMedline検索でみつけた複雑なヒトの疾患の全ゲノムスキャンに関する101件のデータベースを構築した.全部の研究がヒトにおける複雑な疾患に関してであり,しばしばX染色体とY染色体を除く全ゲノムスキャンを記載し,査読を受けた後に科学的な専門誌に掲載されたものである.このデータベースは2000年12月現在のものであり,これまでに行われたヒトのゲノムスキャンのほとんどを含んでいる.我々は,31の異なるヒトの複雑な疾患に関するこれらの研究報告を,デザイン,方法,そして相対的な「成功度」について比較検討した.

これまでに多数の全ゲノムスキャンが行われており,研究リソースのための膨大な費用がかかっているため,その研究の成功度や特徴を系統的にレビューすることはタイムリーなことであろう.我々はそのようなレビューが,研究者たちが今後の研究における適切なデザインを見つけることを助け,またこの分野における論文の評価を促進するであろうと仮説する.本研究の根本の目的は,複雑なヒトの疾患における遺伝子発見の戦略として全ゲノムスキャンの成功度をレビューし,遺伝子の局在における成功に関連した方法論的な違いを比較解析することである.

対象と方法

データベース
作られたデータベースは次の情報を含む.論文の詳細(著者,タイトル,研究施設,研究年,主な形質),検討された表現型形質,研究デザイン(環境因子,関連する形質の数,兄弟内リスク比,有病率,確認背景,表現型を決める方法,家族構造),研究ポピュレーションの詳細(民族背景,同系・異系交配の使用),サンプルサイズ詳細(発端者の数,対象者の数,家系数,兄弟ペア数),遺伝子型決定方法(マーカーのタイプ,マーカーの数,多型情報内容の平均,非単一性の平均,マーカー間の平均距離,損失価値),統計方法,得られた結果(個々の閾値に関して陽性のマーカー数,その場所,そのマーカー名,最大LODスコアまたはZスコア,最小P値).例えば,家系サンプルの追加やマーカーの追加など,第二段階の研究が同じ論文で報告されている時は,データベースは関連する追加情報と共に補充された.

次のキーワードが検索のために使われた.「genome-wide scan」,「genome-wide screen」,「genome-wide search」.これらのキーワードでは,数千のタイトルと数百のアブストラクト(単一遺伝子性疾患または動物モデルに関するもの)を読んで関係のないものを捨てる作業を必要とする.公開された全ゲノムスキャンに共通して使われている他のキーワードを使って広範囲に検索した.このようなキーワードは例えば,「sesceptibility loci」,「genomic scan」,「genome screen」などである.データベースは,検索された論文の考察やリファレンスリストからもチェックし,それぞれの特異的な分野におけるゲノムスキャンに関するデータベースの完全さを信頼できるものにした.データベースは今のところ2000年12月末日までのものである.

解析

報告された全ゲノムスキャンが相対的に成功しているのか,あるいは成功していないのかを決定することにおいて重要である研究の適合性を検討するために,成功度の適切な評価尺度をまず作る必要があった.それぞれの研究用に作られた主なアウトカム変数は,連鎖成功度の序列を示す.全ての研究において,連鎖の最も有意なP値は値により分類され解析用にコードを付けた.この分類はLanderとKruglyakの基準に基づいており,0は連鎖なし.1は示唆的連鎖,2は有意な連鎖,3は高度に有意な連鎖,4は確認された連鎖である(表1).研究の成功度を示すこの分類は,以下L-Kカテゴリーと呼ぶが,それぞれの公表された研究で入手可能な変数の中での成功度の最良指標を決定するための,2変数あるいは多変数解析における序列結果としてこのL-Kカテゴリーを使用した.

表1

カテゴリー P値の範囲 LODスコアの範囲
0:連鎖なし

1:示唆的連鎖

2:有意な連鎖

3:高度に有意な連鎖

4:確認された連鎖

1.00-0.0008

0.0007-0.00003

0.00002-0.0000004

<=0.0000003

異なるサンプルで確認された有意な連鎖

0-2.1

2.2-3.5

3.6-5.3

>=5.4

 

サンプルサイズのパラメーター(複数),遺伝子型が検討されたマーカー数,マーカーの平均非単一性,有病率,全ての疾患のためのラムダS(兄弟内リスク)が連続する変数として解析された.全ての変数はL-Kカテゴリーに分類して検討した.

2変数解析は,偶発性表(contingency table)または変数解析に,かい二乗検定またはFisherの正確検定を使い,L-Kカテゴリーと問題となるパラメーターを比較した.一般化線状モデル(記号論理学回帰)が使用され,複数の共分散のL-Kカテゴリーへの効果をモデル化した.

前向きおよび逆向きの段階的モデリング法は,研究の成功度の独立した指標の有益なサブセットを選別するために使われた.適合度の良さのチェックは,相互関係または多項式条件の必要性に関する検討,残ったものの解析,そして高い回帰効率を伴った観察の効果の検討などを含んでいる.

最初のデータベースの構築にはSAS version 8(ソフトウェアー)が使われた.データの管理と解析にはSAS version 8に加えSplus version 2000が使われた.統計的有意度は標準的な5%レベルで定義された.

結果

1. 記述的統計

研究された疾患や表現型:我々のデータベースの中の101件の研究は1993年から2000年の間に行われ,31種類の異なる複雑なヒトの疾患についてなされた.頻回に行われた疾患は,分裂病(10件),2型糖尿病(8件),喘息(7件),躁鬱病(7件),クローン病および炎症性腸疾患(7件),乾癬(6件),肥満(5件),前立腺癌(7件),1型糖尿病(5件)である.4つの研究グループが複数の全ゲノムスキャンを報告している.全ゲノムスキャンを報告している論文においては,適切な引用ポピュレーションでの兄弟内リスク比(ラムダS)や疾患有病率は一般的に記載されていないが,多くの複雑な疾患において,そのようなデータは二次文献から入手可能であった.検討された31疾患の,兄弟内リスク比(ラムダS)は,1.3−75で,3-4と10-15の二つのピークがあった.検討された状態の一般ポピュレーションにおける有病率は,0.04%から40%で,平均は4%であった.

多くの研究(74%)が疾患影響状態を使い,プライマリーアウトカムとしてイエスかノーでコーディングしている.12%の研究が,プライマリーアウトカムとして疾患に関連した介在量的形質を使い,14%の研究が疾患影響状態と疾患関連量的形質の両方を連鎖解析に使っている.

研究デザイン:50%の研究が有症候兄弟ペアデザインを使い,14%の研究は他の有症候親戚ペアを使っている.無症候の親戚(例えば有症候兄弟の両親や健常兄弟)もしばしば遺伝子型を検討され,それぞれのマーカーの対立遺伝子の家系に基づく共有の計算のために必要な情報を増やしている.研究の36%において,広汎な家系図を確認している.

家族は主に(81%)異系交配系として集められ(つまり非隔離性),一般ポピュレーションからのサンプルである.残りの報告では,遺伝的に隔離されたポピュレーションを扱っており(19%),隔離されたフィンランド人のサブポピュレーション,アメリカのHutterites(キリスト教再洗礼派のセクト),古アーミッシュなどを対象としている.このアプローチは遺伝的背景,環境そしてライフスタイル因子における非単一性を減ずるためのものである.単一の民族グループからサンプルを集めた研究は64%で,残りの36%は複数の民族からサンプリングしている.

サンプルサイズ:研究間でサンプルサイズはかなりばらけており,20人から1783人,1家系から508家系であった.サンプルサイズがこのように異なるのは,サンプルを集めるアプローチが異なったり,研究デザインが異なったりしていることを反映しており,また使われているサンプリングフレーム(サンプリング枠)における有症候発端者の入手し易さに強く関連している.研究の年度や研究された疾患毎には,サンプル数の平均に有意な差はなかった.

遺伝子型タイピング方法:遺伝子型タイピング方法は,101の全ゲノムスクリーニングの間で最も一致する項目である.全ゲノムスキャンの全ては多型マイクロサテライトマーカーのセットを使用することに基づいている.入手可能なマイクロサテライトマーカーセットの数に限りがあり,複数のセットを合わせて使ったり,特異的な多型マーカーや単一塩基多型(SNPs)などが追加されている.46件の報告でのみ平均非単一性が特定されており,その値は0.60から0.82であった.マイクロサテライトマーカー間の平均間隔は4.6から20cMで,大半の報告では平均間隔は11cMである.

複数の報告のあるものでの再現性:いくつかの疾患については複数の報告があった.これらの報告と達成した有意レベルを比較すると,複雑なヒトの疾患において連鎖を再現することは一般的に困難であることが明らかとなった.

 

  連鎖なし 示唆的連鎖 有意連鎖 高度有意連鎖 確認された連鎖(再現性)
喘息
躁鬱病
分裂病
2型糖尿病

表3は喘息の7つの報告の結果と2型糖尿病の8つの報告の結果を比較したものである.複雑なヒトの疾患の連鎖研究の困難さを反映して,喘息と2型糖尿病のこれらの報告はほとんどの常染色体の上に連鎖の証拠を記載しており,報告された陽性連鎖のほとんどは再現性がない(報告間の重複がない).

表3‐喘息
  研究デザイン サンプル数 有意度 陽性所見のでた染色体
Daielら(1996) 兄弟ペア 364 示唆的連鎖 4,6,7,11,13,16
CSGA(1997) 兄弟ペア 540 示唆的連鎖 2,5,6,11-14,17,19,21
Oberら(1998) 拡大家系 361 示唆的連鎖 2,3,5,9,12,13,19,21
Wistら(1999) 兄弟ペア 415 連鎖なし 2,6,9,12
Dizierら(2000) 兄弟ペア 211 示唆的連鎖 1,11-13,17,19
Oberら(2000) 拡大家系 693 示唆的連鎖 5,8,14,16,19
Yokouchiら(2000) 兄弟ペア 197 有意連鎖 4,5,13

表3-2型糖尿病
  研究デザイン サンプル数 有意度 陽性所見のでた染色体
Hanisら(1996) 兄弟ペア 408 有意連鎖 2
Mahtaniら(1996) 拡大家系 217 有意連鎖 12
Hansonら(1998) 有症候親戚 656 示唆的連鎖 11
Daggiralaら(1999) 拡大家系 440 有意連鎖 3,4,9,10
Elbeinら(1999) 拡大家系 468 有意連鎖 1
Hegeleら(1999) 兄弟ペア 33 有意連鎖 3,6,8,10,16,22
Ebmら(2000) 有症候親戚 1783 有意連鎖 3,5,10,12,X
Ghoshら(2000) 兄弟ペア 1438(719兄弟ペア) 示唆的連鎖

全ての陽性マーカーの分布:平均すると4.5ヶ所の遺伝子座が何らかの連鎖の証拠を示し,個々の報告が採用した閾値は異なっている.これらの総計453個の陽性所見は全23染色体に均等に分布しているわけではない.

観察陽性率(それぞれの染色体上の所見数/453:%)を縦軸に,予想陽性率(それぞれの染色体上の理論的遺伝子数/全遺伝子数37701:%)を横軸にして,それぞれの染色体でのデータをプロットした.両者には密接な相関が見られ,既無仮説であるゲノム全体に渡るランダムな連鎖は否定することができないことを示唆している.なぜなら,検討された全ての全ゲノムスキャンはゲノムに均等に分布したマーカーを使っており,陽性連鎖が理論的遺伝子密度と密接に関連していることが示されたわけである.

しかし,第4,6,16染色体は予想値に比べ実際の陽性率が増加している.このことはおそらく複数の疾患および形質の易罹患性に関与している相互作用性の(pleiotropic)遺伝子座の存在を示唆する.例えば,第6染色体短腕上のHLA遺伝子座の近傍での何らかの連鎖の証拠は,1型糖尿病,多発性硬化症,リウマチ,乾癬,炎症性腸炎,喘息/アレルギーで示されている.

2.解析

例えば,モデルに基づく方法とモデルフリー法,2ポイント連鎖解析と複数ポイント連鎖解析,分散成分法と回帰に基づく方法など,たくさんの異なる連鎖解析テクニックや方法が,既存のソフトウェア‐パッケイジと共に使われた.LODスコアとZスコアは記載されていない場合は漸近線的P値に変換された.

L-Kカテゴリーに基づく分類を使用すると,4%の全ゲノムスキャンが高度有意連鎖で,24%が有意連鎖,47%が示唆的連鎖,24%がしばしばわずかなと記載されている連鎖なしであった.41の論文が同じサンプルを用いた複数ステージの研究を報告していた.第2ステージのゲノムスクリーニングは,一般的に第2の全ゲノムスキャンか,第2のサンプル家系でのマーカーを絞り込んでのタイピングか,最初のゲノムスキャンの再現性を検討するためのものか,あるいは同じサンプル家系での特定の部位でのより密度の高いマーカーセットでの検討である.これらの第2ステージ検討のほぼ半数が,個々の連鎖の統計的有意度が上がったと報告している.いくかの論文における第2ステージアプローチの報告は,それぞれの論文が,第1ステージのゲノム全長に渡るスキャン結果について単に報告している結果だけでなく,成功度の再定義の必要性を示している.これは全体的な研究結果とも言うべきことで,我々の解析ではプライマリーなアウトカムとして使っており,研究ステージのひとつあるいは,サンプルデータを結合したもののどちらかで達成した最低P値を考慮している.L−Kカテゴリーを使用するなら,2%が確認された連鎖,5%が高度有意連鎖,27%が有意連鎖,46%が示唆的連鎖,20%が連鎖なしである.

2変数解析:2変数解析ではL−Kカテゴリーで定義する研究成功度と次の研究パラメーターの間に有意な関連はみとめられなかった.検討した研究パラメーターは,サンプル形式(兄弟ペアか親戚ペアかなど),隔離的ポピュレーションか,民族性,プライマリーアウトカム(質的か量的か),サンプル数,有病率,兄弟内リスク比である.しかし,以下の変数はL−Kカテゴリーとの何らかの関連の傾向が示された.そのような変数は,民族性(単一民族であるほど有意),サンプル数(人数が多いほど有意),隔離性(混合ほど有意?)である.

多変数解析:通常の記号論理的回帰は,サンプル数と民族性の両方が,研究の成功度の増加に関連することを示唆する.これらの関連は,検討された特異な疾患,プライマリーアウトカムとして検討された形質のタイプ,サンプル形式,兄弟内リスク比または有病率,あるいは統計的検証法とは独立していた.

考察

我々のレビューは,31の異なる状態における101件の全ゲノムスキャンを,デザイン,方法,そして成功度に関して比較するために行われた.研究デザインおよび統計解析法に関しては,各報告は多様であった.LanderとKruglyakの基準を適応した場合,ほとんどの研究が有意な連鎖を示していない.同じ疾患における複数の研究の所見はしばしば一致しておらず,高度に有意な連鎖や確認された連鎖は非常に少なく,はっきりした結論は得がたい.

このレビューは全ゲノムスキャンの成功度の一面だけに焦点を置いているが,そのような報告の背景となる目的が,複雑な疾患の易罹患性遺伝子座を発見することであり,全ゲノムスキャンの真の成功は連鎖解析の最小達成P値によって単純に定義されるようなものではないことを忘れないようにすることは重要である.我々のレビューでは公表バイアスの可能性は無視した.私的な会社によって行われ公表されていないゲノムスキャンはたくさんある.商社における遺伝子発見のための試みは秘密主義が重んじられ公表されないため,このレビューには含むことができない.全ゲノムスクリーニングにおける公表バイアスの系統的評価はこれまでになされておらず,また我々のレビューの目的でもない.しかし,論文の公表年度と研究の成功度との間に相関関係は証明されなかったことは,今回検討した全ゲノムスクリーニングのサンプルにおいては公表バイアスが重要なバイアスではないことを示唆している.我々の検討におけるさらに可能性のあるバイアスは,Medline検索の方法に関連している.最初のMedline検索で見つかった一次文献の中の考察や文献リストからも文献をデータベースに取り入れたことにより,より頻回に研究されている疾患のゲノムスキャンがより多く含まれてしまう.

LanderとKruglyakが研究の成功度のだいたいの指標として提案した基準を使用したことは,いくぶん恣意的であり,未知のバイアスがかかっている可能性がある.LanderとKruglyakは,彼らの論文の中で,そのような分類の価値を強く主張し,かれらの考えは多くの研究者たちに受け入れられた.しかし,成功度の分類が我々のレビューにバイアスを与えていないことを確認するために,我々はまたそれぞれの報告からの−log10(最小P値)を連続性のアウトカムとして使い解析を繰り返した.結果はL−Kカテゴリーが使われた場合と非常に類似しており(データは示していない),このことは分類するやり方が有意なバイアスを招来していないことを示唆する.

我々の解析はサンプルサイズが,研究の成功度の重要な決定因子であることを示唆している.拡大家系アプローチでは,家系数が少ない割りに対象者数が多いので,検討された対象者の数が最っとも情報的価値のあるサンプルサイズの指標である.サンプルサイズに起因する研究の成功度における最も明らかな差異は,その結果が連鎖なしか,何らかの連鎖の証拠があるかで比較するとはっきりしており,LanderとKruglyakの基準で示唆的な連鎖を示した研究の平均サンプルサイズは,連鎖のなかった研究の2倍である.

単一の民族グループから選んだサンプルに関する研究もまた,得られたL-Kカテゴリーに関して有益であることが明らかである.このことは,異なる民族グループからのサンプル混入に起因する研究サンプルにおける非単一性の増加と,結果として増加してしまう非単一性を評価したり調整する適切な統計学的方法論が一般的に欠如している現状の両方が原因である.

異系交配系(混合)ポピュレーションと比較して,遺伝的に隔離されているポピュレーションを対象とすることは,複雑な遺伝的形質のマッピングにおいて何らかの利益があるかもしれない.しかし,同系交配系のポピュレーション形態の使用における理論的有益性に比較し,また,最近のいくつかの統計学的懸念に一致して,経験的データはそのようなポピュレーションを使った研究は平均的には,一般的な異系交配系ポピュレーションからのサンプルを使った研究よりも成功しやすいということはないことを示している.この所見は,特定の疾患の研究のために同系交配系ポピュレーションが入手不可能であることが多かったり,あるいはおそらく,拡大家系アプローチに内在する不利益などの因子によるものであろう.

まれな疾患は,大規模研究が一般的により困難である.その理由は,(a)研究デザインがしばしば入手可能なサンプルの数に制限される,(b)一人あるいは複数の有症候者を含むたくさんの家系を集めることは問題が多いの2点である.しかし,我々のレビューでは,より一般的な疾患に比較してよりまれな複雑疾患の研究に関連した不利益を同定することはできないことが示唆された.

量的(quantitative)な「中間的,介在的:intermediate」表現型を検討できるのであれば,より客観的で情報量が多く,それゆえに統計学的に強力で,またそれゆえに二者択一的な疾患作用アウトカムには望ましいことが一般的に受け入れられている.しかし,我々の解析結果では,連鎖解析のアウトカムとしては,量的形質が質的形質よりも有意な利点を持つことは示唆されなかった.もし,たくさんの異なる疾患が本質的に異なるたくさんの方法で研究されたとすると,この所見に意味があるとすることは困難である.共通確立変数を量的中間的表現型に調整するための配慮における困難性だけでなく,おそらく,個人における経時変動が表現型にバイアスとなり,連鎖解析の結果にノイズを与えているのであろう.

ラムダsは,疾患の家系内集積を特徴づける変数で,ラムダs値は有症候兄弟ペア法が連鎖を検出できる可能性を評価するために使うことができる.ラムダs値が極度に高値を示す傾向のある単一遺伝子性の形質の解析においては全ゲノムスキャンは成功してきた.ラムダs値の理論的研究と共に,単一遺伝子性疾患における遺伝子マッピングの結果は,比較的高値のラムダs値を示す複雑な疾患の遺伝子の位置がより簡単に同定できることを示唆している.しかし,我々の結果はこの理論的予想とは異なっていた.この結果は,一般的な複雑なヒトの疾患の連鎖研究において,ラムダs値が有益であるのか,という疑問を投げかけた.

全ての研究で得られた最良のL-Kカテゴリーに対応して,研究デザインや研究感度(パワー)に関係する変数を比較してみると,いくつかのよりはっきりした傾向が示唆されるのみであり,観察された差異が研究の成功のために重要であるとは証明されない.サンプル数が大きいほどまた非単一性が少ないほど結果が良いというほぼ同語反復の所見は,複雑なヒトの疾患に応用可能なゴールドスタンダードが存在しないことを暗示している.確信して推薦できることは,全ゲノムスキャンの論文発表においては,より慎重な注意が,方法(特に確認方法と表現型決定法)と結果に注がれるべきことである.対象となる報告が方法や結果に関しても一様ではないために,レビューは困難で,ある程度の主観的な説明がひとつの研究から得られる関連するパラメーターの全てを同定するためにしばしば必要となる.連鎖結果はそれぞれの染色体に関してLODスコアあるいはP値の図表で表現され,しばしば小さく読むことが困難である.マーカーの情報提供性に関する情報を提供している研究はほとんどなく,このパラメーターを検討することは不可能であった.方法論の詳細な記載(特に複数のステージを含む研究において)と,(図表示に加えあるいは図表時に換えて)表表示での最大LODスコアあるいは(and/or)最小P値が含まれていれば,状況は改善するのだが含まれていない.連鎖結果の再現性に関して一般的に受け入れられたクライテリアはなく,一つのゲノムスキャンにおいて何が「再現」を決定するかは正確には判っていない.我々のレビューの目的のために,たとえ異なる研究において異なるクライテリアが含まれていても(例えば,10cM以内対5cM以内),額面どおり報告された再現結果を採用した.最終的にLanderとKruglyakの主張のように,理想的には全ての個々の全ゲノムスクリーニングは,その研究にとって経験的に同定された有意基準を報告しているであろう.これらの問題は,それぞれの著者の失敗であると同時にジャーナル編集者の失敗でもあり,包括的な単一形式のガイドラインによって言及される必要がある.

ここでレビューされた複雑なヒト疾患の全ゲノムスクリーニングは,多くの重要な限界をかかえている.サンプルサイズは一般的にそれほどではなく,比較的小規模の研究の場合,(a)ゲノムスクリーニングでの連鎖を検出するパワー(感度)が制限される傾向がある.(b)I 型の実験エラーの可能性が増加する.それぞれのサンプル内で非常に異なる有意閾値を使えば,それらを比較することは困難である.多くの研究において,可能性のある新しい連鎖の再現があるかどうかの検討は同じ民族の異なるポピュレーションサンプルにおいては試みられていない.さらに,疾患に関連した量的形質への易罹患性遺伝子が,問題の病気の易罹患性遺伝子と等価値であろうとする暗黙の仮説は必ずしも妥当ではない.しかし,後になって重要になることも予想でき,また,これらの研究が歴史的なマトリックスの中に埋もれてしまうと認識することも重要である.ポジショナルクローニングに伴う多くの困難は,過去の10年間の間に得られた経験を通してのみ明らかになったのである.

高度に有意あるいは確認された連鎖を示した研究に共通するもの
5つの報告が一つあるいは複数の高度に有意な連鎖を示し,2つの報告が確認された連鎖を示した.これらの7つの報告全ては,量的な主形質を使い(2つの報告が1型糖尿病,リウマチ性関節炎1報,強直性脊椎症1報,炎症性腸炎1報,そして乾癬が2報),異系交配系ポピュレーションからサンプルを集め,それらのうち5つの報告が兄弟ペアアプローチを使っていた.これらの研究結果は偶然に得られたのであろうか(適切な家系において適切な形質を幸運にも研究したのであろうか).それともこれらの研究は共通して何か他の因子を持っているのであろうか.サンプルサイズと得られた優位レベルの間には有意な関連が示されたが,最も有意な結果はこのグループの中の最も大規模な研究によって得られたものではない.ひょっとしたら自己免疫性疾患が連鎖がでやすいかもしれないことを除き,我々のレビューによっては,研究成功のための明らかな戦略は浮き彫りにされなかった.そのような疾患の研究における成功は,検討され連鎖が検出されなかった他の疾患に比較して,多様性の遺伝素因の増加と遺伝子座の非単一性の減少の両方を反映しているかもしれない.研究デザインもまた,役割をはたしており,家系の選別は一般的に疾患のよく定義されたサブタイプかあるいはメンデルの法則に従う疾患を有する大家系のいずれかに注目して行われる.

1型糖尿病に関しては,より多い家系が集められ,この疾患の研究は両方とも連鎖の最大の結果は6p21部のHLA領域にあるマーカーと報告している.この領域はまた,1型糖尿病に関する他の研究によっても指摘されている.これらの所見は,少なくともいくつかの疾患においては,ポジショナルクローニングの可能性があることを示唆しており,つまり,重要な遺伝子座は発見することが可能でまた結果の再現性もあり得るということである.

今後の展望
過去10年を顧みると,複雑なヒトの疾患の遺伝的基盤を同定することにおいては多大な進歩が成されているけれども,比較的大規模研究であっても連鎖によりあまり大きくない効果の遺伝子をマッピングすることは低いパワーしか持たないのである.この問題やその他の問題を解決できる可能性のある方法の一つは,複数の研究結果からのデータを合わせることである.メタ解析は複雑な疾患遺伝学の連鎖解析において新しく出現した方法であり,複数の研究から得られた証拠を合わせることは,一般的な複雑なヒト疾患において,さほど大きくない効果の遺伝子の場所を同定できるために重要であることが証明されるであろう.

我々の結果は,研究デザインのいくつかの成分は,全ゲノムスキャンの相対的な成功の決定打として重要であろうことを示唆している.個々の研究および個々の疾患は全て,検討されるサンプルと表現型の両方の特徴的性状を考慮する最適化された研究デザインを必要としているようである.我々のレビューはサンプルの単一性を最大にする注意がかなり重要であることを示唆している.残念なことに,この荷車はしばしば馬のかなり遠いところに置かれている(簡単にサンプルの単一性を上げることができない).連鎖解析は,表現型と検討されている共確立変数の相互関係を決定するために適切な記載解析が行われる前に,非常にしばしば企てられる.記載解析の前に連鎖解析が行われることは,問題のサンプリング枠における告知された研究デザインと遺伝解析を許容してしまう.例えば,喘息は多くのゲノムスキャンの対象疾患であるが,最近になってやっと,背景に存在する,中間型(介在型)の表現型の遺伝的決定因子間の相互関係が研究されるようになったのである.より安価で改善されたコンピューター能力の最近の出現は,複雑なモデリング技術における進歩と共に,コンピューターによる集中的な新しい統計学的方法論の持続する発展と応用をうながし,この統計学的方法論は複雑な遺伝子モデリングに理想的である.最後に,多くの疾患の遺伝疫学の理解は,ポピュレーションに基づく研究によって大いに増強されるであろう.そのような研究を行うには費用がかかり,また困難であるが,そのような研究は理想的な遺伝疫学の基礎であり,一般化のようなたくさんの重要な疫学的問題について多くを語る.

結論

複雑なヒトの疾患における遺伝子の発見は,かなりの病因的非単一性,遺伝子の効果が小さい可能性,そしてサンプルを大きくするために随伴して必要になるものなどが原因で簡単にはいかない.そのような疾患のヒトの易罹患性遺伝子座のマッピングは,以下のもののいずれかで,あるいは全部によって困難となっている.それは,ポピュレーション頻度が高いこと,浸透が不完全であること,フェノコピー(環境による多様性),遺伝的非単一性,エピスターシス(遺伝子間の相互作用)の可能性,プレイオトロピー(一つの遺伝子が複数の表現型に影響)などである.いかなる陽性結果も再現することは困難であり,そしてしばしば,研究の異なる所見の意義は共通していない.その結果,明らかなメンデルの法則に従った遺伝形態を伴わない複雑な疾患に連鎖解析を適応した場合の結果の成功は,これまでのところ制限されている.

複雑な疾患への遺伝学的アプローチは,これらの疾患の病態生理の理解に貢献する可能性を提供する.しかし,それらは同様に,重大な難問をも提供するのである.過去10年間で,そのような疾患の遺伝的背景を同定することにおいて大きな進歩が得られ,同時に遺伝子型決定のための技術や統計的方法論における急速な進歩があったが,特に研究デザインの領域においてはさらなる研究が必要である.特に,最大の易罹患性遺伝子座の場所決定法は,疾患に影響する新しい遺伝子をポジショナルクローニングためには,依然として不正確である.同じ疾患の複数の全ゲノムスクリーニングにおいて,ほとんど全ての常染色体上に連鎖が報告されており,そのようなスクリーニングによって同定された「コンセンサス部位」がたくさんあり,喘息や糖尿病のような一般的で複雑な疾患におけるポジショナルクローニングの試みが困難であることを浮き彫りにしている.全ゲノムスクリーニングに基づくポジショナルクローニングが結局複雑なヒトの疾患に関してその目的を達成するかどうかは不明である.多くの複雑なヒト疾患における(小さな効果の)易罹患性遺伝子座を検出するためには,機能的なゲノムデータといっしょになった高密度SNP関連解析が必要となるのかもしれない.真の愛と同様に,真の連鎖は見つけ難いものなのである.


表紙にもどる。


ご意見やご質問のある方はメールください。

E-mail: jyajya@po.synapse.ne.jp