หลัก อื่นๆ อัตราการค้นพบเท็จ False

อัตราการค้นพบเท็จ False

ภาพรวม

ซอฟต์แวร์

คำอธิบาย

ผลบวกของวิดีโอเกม

เว็บไซต์

การอ่าน

หลักสูตร

ภาพรวม

หน้านี้อธิบายสั้น ๆ เกี่ยวกับอัตราการค้นพบเท็จ (FDR) และแสดงรายการทรัพยากรที่มีคำอธิบายประกอบ

คำอธิบาย

เมื่อวิเคราะห์ผลลัพธ์จากการศึกษาเกี่ยวกับจีโนมทั่วๆ ไป มักจะมีการทดสอบสมมติฐานหลายพันครั้งพร้อมๆ กัน การใช้วิธีการ Bonferroni แบบดั้งเดิมเพื่อแก้ไขการเปรียบเทียบหลายรายการเป็นเรื่องที่ระมัดระวังเกินไป เนื่องจากการป้องกันมิให้เกิดผลบวกที่ผิดพลาดจะนำไปสู่การค้นพบที่พลาดไปจำนวนมาก เพื่อให้สามารถระบุการเปรียบเทียบที่มีนัยสำคัญได้มากเท่าที่เป็นไปได้ในขณะที่ยังคงรักษาอัตราผลบวกลวงที่ต่ำไว้ อัตราการค้นพบเท็จ (FDR) และแอนะล็อกจึงใช้ค่า q

การกำหนดปัญหา
เมื่อทำการทดสอบสมมติฐาน ตัวอย่างเช่น เพื่อดูว่าทั้งสองวิธีมีความแตกต่างกันอย่างมีนัยสำคัญหรือไม่ เราคำนวณค่า p ซึ่งเป็นความน่าจะเป็นที่จะได้รับสถิติการทดสอบที่เท่าหรือมากกว่าค่าที่สังเกตได้ สมมติว่าสมมติฐานว่างเป็นจริง ตัวอย่างเช่น หากเรามีค่า p เท่ากับ 0.03 นั่นหมายความว่าหากสมมติฐานว่างของเราเป็นจริง จะมีโอกาส 3% ที่จะได้รับสถิติการทดสอบที่สังเกตได้หรือรุนแรงกว่านั้น เนื่องจากนี่เป็นความน่าจะเป็นเพียงเล็กน้อย เราจึงปฏิเสธสมมติฐานว่างและบอกว่าค่าเฉลี่ยต่างกันมาก เรามักจะชอบที่จะรักษาความน่าจะเป็นนี้ให้ต่ำกว่า 5% เมื่อเราตั้งค่าอัลฟาเป็น 0.05 เรากำลังบอกว่าเราต้องการความน่าจะเป็นที่การค้นหาค่าว่างจะถูกเรียกว่ามีนัยสำคัญน้อยกว่า 5% กล่าวอีกนัยหนึ่ง เราต้องการความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 หรือผลบวกลวง น้อยกว่า 5%

เมื่อเราทำการเปรียบเทียบหลายครั้ง (ฉันจะเรียกการทดสอบแต่ละครั้งว่าเป็นคุณลักษณะ) เรามีโอกาสเกิดผลบวกลวงมากขึ้น ยิ่งคุณมีคุณสมบัติมากเท่าใด โอกาสที่คุณสมบัติ null จะถูกเรียกว่ามีนัยสำคัญก็จะยิ่งสูงขึ้น อัตราผลบวกลวง (FPR) หรืออัตราความผิดพลาดต่อการเปรียบเทียบ (PCER) คือจำนวนที่คาดหมายของผลบวกลวงจากการทดสอบสมมติฐานทั้งหมดที่ดำเนินการ ดังนั้น หากเราควบคุม FPR ที่อัลฟาที่ 0.05 เรารับประกันว่าเปอร์เซ็นต์ของผลบวกลวง (คุณสมบัติโมฆะที่เรียกว่ามีนัยสำคัญ) จากการทดสอบสมมติฐานทั้งหมดคือ 5% หรือน้อยกว่า วิธีนี้จะก่อให้เกิดปัญหาเมื่อเราทำการทดสอบสมมติฐานจำนวนมาก ตัวอย่างเช่น หากเรากำลังทำการศึกษาเกี่ยวกับจีโนมทั่วจีโนมเพื่อดูการแสดงออกของยีนที่แตกต่างกันระหว่างเนื้อเยื่อเนื้องอกและเนื้อเยื่อที่มีสุขภาพดี และเราทดสอบยีน 1,000 ยีนและควบคุม FPR โดยเฉลี่ยแล้ว 50 ยีนที่เป็นโมฆะอย่างแท้จริงจะถูกเรียกว่ามีนัยสำคัญ วิธีนี้ใช้แนวคิดเสรีเกินไป เนื่องจากเราไม่ต้องการให้ผลบวกลวงจำนวนมากเช่นนี้

โดยทั่วไป ขั้นตอนการเปรียบเทียบหลายขั้นตอนจะควบคุมอัตราความผิดพลาดในครอบครัว (FWER) แทน ซึ่งเป็นความน่าจะเป็นที่จะมีผลบวกปลอมอย่างน้อยหนึ่งรายการจากการทดสอบสมมติฐานทั้งหมดที่ดำเนินการ การแก้ไข Bonferroni ที่ใช้กันทั่วไปจะควบคุม FWER หากเราทดสอบสมมติฐานแต่ละข้อที่ระดับนัยสำคัญของ (อัลฟา/# ของการทดสอบสมมติฐาน) เรารับประกันว่าความน่าจะเป็นที่จะมีผลบวกลวงหนึ่งหรือมากกว่านั้นน้อยกว่าอัลฟา ดังนั้นหากอัลฟาเป็น 0.05 และเรากำลังทดสอบยีน 1,000 ยีน เราจะทดสอบแต่ละค่า p ที่ระดับนัยสำคัญที่ 0.00005 เพื่อรับประกันว่าความน่าจะเป็นที่จะมีผลบวกปลอมหนึ่งค่าหรือมากกว่านั้น 5% หรือน้อยกว่า อย่างไรก็ตาม การป้องกันผลบวกที่ผิดพลาดเพียงอย่างเดียวอาจเข้มงวดเกินไปสำหรับการศึกษาทั่วทั้งจีโนม และอาจนำไปสู่การค้นพบที่พลาดไปมากมาย โดยเฉพาะอย่างยิ่งหากเราคาดหวังว่าจะมีผลบวกที่แท้จริงมากมาย

การควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) เป็นวิธีการระบุคุณลักษณะที่สำคัญให้ได้มากที่สุดเท่าที่จะเป็นไปได้ในขณะที่เกิดผลบวกปลอมในสัดส่วนที่ค่อนข้างต่ำ

ขั้นตอนในการควบคุมอัตราการค้นพบที่ผิดพลาด:

  • การควบคุม FDR ที่ระดับ α *(เช่น ระดับที่คาดไว้ของการค้นพบเท็จหารด้วยจำนวนการค้นพบทั้งหมดจะถูกควบคุม)

อี [V⁄R]

  • คำนวณค่า p สำหรับแต่ละการทดสอบสมมติฐานและลำดับ (จากน้อยไปมาก, P(นาที)…….P(สูงสุด))

  • สำหรับค่า p-value ที่สั่งซื้อ ให้ตรวจสอบว่าเป็นไปตามเงื่อนไขต่อไปนี้หรือไม่:

P (i) ≤ α × i / m

ถ้าจริงก็สำคัญ

*ข้อจำกัด: หากอัตราความผิดพลาด (α) สูงมากอาจทำให้จำนวนผลบวกลวงเพิ่มขึ้น

อัตราการค้นพบเท็จ (FDR)

FDR คืออัตราที่คุณลักษณะที่เรียกว่ามีนัยสำคัญเป็นโมฆะอย่างแท้จริง
FDR = คาดหวัง (# การคาดคะเนที่ผิดพลาด/ # การคาดคะเนทั้งหมด)

FDR คืออัตราที่คุณลักษณะที่เรียกว่ามีนัยสำคัญเป็นโมฆะอย่างแท้จริง FDR 5% หมายความว่าในบรรดาคุณลักษณะทั้งหมดที่เรียกว่ามีนัยสำคัญ 5% ของคุณสมบัติเหล่านี้เป็นโมฆะอย่างแท้จริง เมื่อเราตั้งค่าอัลฟาเป็นขีดจำกัดสำหรับค่า p เพื่อควบคุม FPR เราก็สามารถกำหนดขีดจำกัดสำหรับค่า q ซึ่งเป็นแอนะล็อก FDR ของค่า p ได้ เกณฑ์ค่า p (อัลฟา) ที่ 0.05 ให้ FPR 5% ในบรรดาคุณสมบัติที่เป็นโมฆะอย่างแท้จริง เกณฑ์ค่า q ที่ 0.05 ให้ FDR 5% ในทุกคุณลักษณะที่เรียกว่ามีนัยสำคัญ ค่า q คือสัดส่วนที่คาดไว้ของผลบวกลวงระหว่างคุณลักษณะทั้งหมดหรือมากเกินกว่าที่สังเกตได้

ในการศึกษายีน 1,000 ยีนของเรา สมมติว่ายีน Y มีค่า p เท่ากับ 0.00005 และค่า q เท่ากับ 0.03 ความน่าจะเป็นที่สถิติการทดสอบของยีนที่ไม่แสดงความแตกต่างจะมากหรือมากที่สุดเท่าที่สถิติการทดสอบสำหรับยีน Y คือ 0.00005 อย่างไรก็ตาม สถิติการทดสอบของยีน Y อาจรุนแรงมาก และบางทีสถิติการทดสอบนี้ไม่น่าจะเป็นไปได้สำหรับยีนที่แสดงความแตกต่าง มีความเป็นไปได้ค่อนข้างมากที่จะมียีนที่แสดงออกอย่างแตกต่างอย่างแท้จริงโดยมีสถิติการทดสอบน้อยกว่ายีน Y การใช้ค่า q-value ที่ 0.03 ทำให้เราสามารถพูดได้ว่า 3% ของยีนนั้นมีความสุดโต่งหรือรุนแรงกว่านั้น (เช่น ยีนที่มี p- ต่ำกว่า ค่า) เนื่องจากยีน Y เป็นผลบวกลวง การใช้ค่า q ช่วยให้เราสามารถตัดสินใจได้ว่าเราจะยอมรับผลบวกปลอมจำนวนเท่าใดจากคุณลักษณะทั้งหมดที่เราเรียกว่ามีนัยสำคัญ สิ่งนี้มีประโยชน์อย่างยิ่งเมื่อเราต้องการทำการค้นพบจำนวนมากเพื่อยืนยันเพิ่มเติมในภายหลัง (เช่น การศึกษานำร่องหรือการวิเคราะห์เชิงสำรวจ เช่น หากเราทำไมโครอาร์เรย์สำหรับการแสดงออกของยีนเพื่อเลือกยีนที่แสดงความแตกต่างเพื่อยืนยันด้วย PCR แบบเรียลไทม์) สิ่งนี้ยังมีประโยชน์ในการศึกษาเกี่ยวกับจีโนมทั่วๆ ไป ซึ่งเราคาดว่าฟีเจอร์บางส่วนที่มีขนาดใหญ่จะเป็นทางเลือกอย่างแท้จริง และเราไม่ต้องการจำกัดความสามารถในการค้นพบของเรา

FDR มีคุณสมบัติที่มีประโยชน์บางประการ หากสมมติฐานว่างทั้งหมดเป็นจริง (ไม่มีผลลัพธ์ทางเลือกจริงๆ) FDR=FWER เมื่อมีสมมติฐานทางเลือกจริงจำนวนหนึ่ง การควบคุม FWER จะควบคุม FDR โดยอัตโนมัติด้วย

พลังของวิธี FDR (จำได้ว่ากำลังคือความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างเมื่อทางเลือกนั้นเป็นจริง) มีขนาดใหญ่กว่าวิธี Bonferroni อย่างสม่ำเสมอ ความได้เปรียบด้านพลังงานของ FDR เหนือวิธี Bonferroni เพิ่มขึ้นเมื่อมีการทดสอบสมมติฐานเพิ่มขึ้น

การประมาณการของ FDR
(จาก Storey และ Tibshirani, 2003)

คำนิยาม:t: thresholdV: # of false positivesS: # ของคุณสมบัติที่เรียกว่า friendshipm0: # ของฟีเจอร์ null อย่างแท้จริงm: # การทดสอบสมมติฐานทั้งหมด (features)
FDR ที่ธรณีประตูที่กำหนด t คือ FDR(t) FDR(t) ≈ E[V(t)]/E[S(t)] –> FDR ที่เกณฑ์ที่กำหนดสามารถประมาณได้ตามจำนวนที่คาดไว้ของผลบวกลวงที่เกณฑ์นั้นหารด้วย # คุณลักษณะที่คาดไว้ที่เรียกว่ามีนัยสำคัญ ที่ธรณีประตูนั้น
เราจะประมาณ E[S(t)] ได้อย่างไร?
E[S(t)] เป็นเพียง S(t) จำนวนของค่า p ที่สังเกตพบ ≤ t (เช่น จำนวนของคุณสมบัติที่เราเรียกว่ามีนัยสำคัญที่เกณฑ์ที่เลือก) ความน่าจะเป็นที่จะมีค่า null p คือ ≤ t คือ t (เมื่อ alpha=0.05 มีความน่าจะเป็น 5% ที่คุณสมบัติ null อย่างแท้จริงมีค่า p ที่ต่ำกว่าเกณฑ์โดยบังเอิญและถูกเรียกว่ามีนัยสำคัญ)
เราจะประมาณค่า E[V(t)] ได้อย่างไร?
E[V(t)]=m0*t –> จำนวนที่คาดไว้ของผลบวกลวงสำหรับขีดจำกัดที่กำหนด เท่ากับจำนวนฟีเจอร์ที่เป็นโมฆะอย่างแท้จริง คูณความน่าจะเป็นที่ฟีเจอร์โมฆะจะถูกเรียกว่ามีนัยสำคัญ
เราจะประมาณค่า m0 ได้อย่างไร?
ไม่ทราบค่าที่แท้จริงของ m0 เราสามารถประมาณสัดส่วนของคุณสมบัติที่เป็นโมฆะอย่างแท้จริง m0/m = π0
เราคิดว่า p-value ของคุณสมบัติ null จะถูกกระจายอย่างสม่ำเสมอ (มีการแจกแจงแบบแบน) ระหว่าง [0,1] ความสูงของการกระจายแบบเรียบให้ค่าประมาณแบบอนุรักษ์นิยมของสัดส่วนโดยรวมของค่า null p, π0 ตัวอย่างเช่น รูปภาพด้านล่างที่นำมาจาก Storey และ Tibshirani (2003) เป็นฮิสโทแกรมความหนาแน่น 3000 p-values ​​สำหรับ 3000 ยีนจากการศึกษาการแสดงออกของยีน เส้นประแสดงถึงความสูงของส่วนแบนของฮิสโตแกรม เราคาดว่าคุณลักษณะที่เป็นโมฆะอย่างแท้จริงจะสร้างการกระจายแบบเรียบจาก [0,1] และคุณลักษณะทางเลือกอื่น ๆ อย่างแท้จริงจะใกล้เคียงกับ 0

π0 ถูกหาปริมาณเป็น โดยที่ lambda เป็นพารามิเตอร์การปรับค่า (เช่น ในภาพด้านบน เราอาจเลือก lambda=0.5 เนื่องจากหลังจากค่า p เท่ากับ 0.5 การกระจายจะค่อนข้างแบน สัดส่วนของคุณสมบัติ null อย่างแท้จริงจะเท่ากับจำนวน p -ค่าที่มากกว่าแลมบ์ดาหารด้วย ม.(1-แลมบ์ดา) เมื่อแลมบ์ดาเข้าใกล้ 0 (เมื่อการแจกแจงส่วนใหญ่เป็นแบบราบ) ตัวส่วนจะอยู่ที่ประมาณ ม. เช่นเดียวกับตัวเศษเนื่องจากค่า p ส่วนใหญ่จะมากกว่า กว่าแลมบ์ดาและ π0 จะอยู่ที่ประมาณ 1 (คุณสมบัติทั้งหมดเป็นโมฆะ)
ทางเลือกของแลมบ์ดามักจะเป็นไปโดยอัตโนมัติโดยโปรแกรมทางสถิติ

ตอนนี้เราได้ประมาณ π0 แล้ว เราสามารถประมาณ FDR(t) เป็น
ตัวเศษสำหรับสมการนี้เป็นเพียงจำนวนที่คาดไว้ของผลบวกลวง เนื่องจาก π0*m คือจำนวนโดยประมาณของสมมติฐานว่างอย่างแท้จริง และ t คือความน่าจะเป็นของคุณสมบัติว่างอย่างแท้จริงที่ถูกเรียกว่ามีนัยสำคัญ (ต่ำกว่าขีดจำกัด t) ตัวส่วนดังที่เราได้กล่าวไว้ข้างต้นเป็นเพียงจำนวนคุณลักษณะที่เรียกว่านัยสำคัญ
ค่า q สำหรับคุณลักษณะคือ FDR ขั้นต่ำที่สามารถรับได้เมื่อเรียกคุณลักษณะนั้นอย่างมีนัยสำคัญ

(หมายเหตุ: คำจำกัดความข้างต้นถือว่า m มีขนาดใหญ่มาก ดังนั้น S>0 เมื่อ S=0 ไม่ได้กำหนด FDR ดังนั้นในเอกสารสถิติจะมีปริมาณ E[V/?S?|S>0]?*Pr (S>0) ใช้เป็น FDR หรืออีกทางหนึ่งคือใช้ FDR เชิงบวก (pFDR) ซึ่งก็คือ E[V/S?|S>0] ดู Benjamini และ Hochberg (1995) และ Storey และ Tibshirani (2003) สำหรับข้อมูลเพิ่มเติม.)

การอ่าน

ตำราและบท

ความก้าวหน้าล่าสุดใน BIOSTATISTICS (เล่มที่ 4):
อัตราการค้นพบเท็จ การวิเคราะห์การอยู่รอด และหัวข้อที่เกี่ยวข้อง
แก้ไขโดย Manish Bhattacharjee (สถาบันเทคโนโลยีนิวเจอร์ซีย์ สหรัฐอเมริกา), Sunil K Dhar (สถาบันเทคโนโลยีแห่งนิวเจอร์ซีย์ สหรัฐอเมริกา) และ Sundarraman Subramanian (สถาบันเทคโนโลยีนิวเจอร์ซีย์ สหรัฐอเมริกา)
http://www.worldscibooks.com/lifesci/8010.html
บทแรกของหนังสือเล่มนี้ให้การทบทวนขั้นตอนการควบคุม FDR ที่ได้รับการเสนอโดยนักสถิติที่มีชื่อเสียงในสาขานี้ และเสนอวิธีการปรับเปลี่ยนแบบใหม่ที่ควบคุม FDR เมื่อค่า p เป็นอิสระหรือขึ้นกับเชิงบวก

ชีวสถิติที่ใช้งานง่าย: คู่มือที่ไม่ใช่คณิตศาสตร์เพื่อการคิดเชิงสถิติ
โดย Harvey Motulsky
http://www.amazon.com/Intuitive-Biostatistics-Nonmathematical-Statistical-Thinking/dp/product-description/0199730067
นี่คือหนังสือสถิติที่เขียนขึ้นสำหรับนักวิทยาศาสตร์ที่ไม่มีพื้นฐานทางสถิติที่ซับซ้อน ส่วน E ความท้าทายในสถิติ อธิบายในแง่ของคนธรรมดาถึงปัญหาการเปรียบเทียบหลายรายการและวิธีจัดการกับมันด้วยวิธีต่างๆ ซึ่งรวมถึงคำอธิบายพื้นฐานของอัตราความผิดพลาดสำหรับครอบครัวและ FDR

การอนุมานขนาดใหญ่: วิธีการเบย์เชิงประจักษ์สำหรับการประมาณ การทดสอบ และการทำนาย and
โดย Efron, B. (2010). สถาบันเอกสารสถิติทางคณิตศาสตร์ สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์.
http://www.amazon.com/gp/product/0521192498/ref=as_li_ss_tl?ie=UTF8&tag=chrprobboo-20&linkCode=as2&camp=1789&creative=390957&creativeASIN=0521192498
นี่คือหนังสือทบทวนแนวคิดของ FDR และสำรวจคุณค่าของมัน ไม่เพียงแต่เป็นขั้นตอนการประเมินเท่านั้น แต่ยังเป็นวัตถุทดสอบนัยสำคัญด้วย ผู้เขียนยังให้การประเมินเชิงประจักษ์เกี่ยวกับความถูกต้องของการประมาณการ FDR

บทความระเบียบวิธี

Benjamini, Y. และ Y. Hochberg (1995). การควบคุมอัตราการค้นพบที่ผิดพลาด: แนวทางปฏิบัติที่มีประสิทธิภาพสำหรับการทดสอบหลายครั้ง วารสารสมาคมสถิติ. Series B (ระเบียบวิธี) 57(1): 289-300.
กระดาษปี 1995 นี้เป็นคำอธิบายอย่างเป็นทางการครั้งแรกของ FDR ผู้เขียนอธิบายทางคณิตศาสตร์ว่า FDR เกี่ยวข้องกับอัตราความผิดพลาดในครอบครัว (FWER) อย่างไร ให้ตัวอย่างง่ายๆ เกี่ยวกับวิธีใช้ FDR และทำการศึกษาแบบจำลองที่แสดงให้เห็นถึงพลังของขั้นตอน FDR เมื่อเปรียบเทียบกับขั้นตอนประเภท Bonferroni

Storey, J. D. และ R. Tibshirani (2003). นัยสำคัญทางสถิติสำหรับการศึกษาเกี่ยวกับพันธุกรรม การดำเนินการของ National Academy of Sciences 100(16): 9440-9445
เอกสารนี้อธิบายว่า FDR คืออะไรและเหตุใดจึงมีความสำคัญสำหรับการศึกษาในระดับพันธุกรรม และอธิบายว่า FDR สามารถประมาณได้อย่างไร โดยให้ตัวอย่างสถานการณ์ที่ FDR จะเป็นประโยชน์ และให้ตัวอย่างการทำงานโดยละเอียดของวิธีที่ผู้เขียนใช้ FDR ในการวิเคราะห์ข้อมูลการแสดงออกของยีน microarray differential

ชั้น JD. (2010) อัตราการค้นพบเท็จ ในสารานุกรมวิทยาศาสตร์สถิตินานาชาติ Lovric M (บรรณาธิการ)
บทความที่ดีมากในการดูการควบคุม FDR, FDR เชิงบวก (pFDR) และการพึ่งพาอาศัยกัน แนะนำให้ดูภาพรวมแบบง่ายของ FDR และวิธีการที่เกี่ยวข้องสำหรับการเปรียบเทียบหลายรายการ

ผลกระทบของนิวเคลียร์ต่อมนุษย์

Reiner A, Yekutieli D, Benjamini Y: การระบุยีนที่แสดงความแตกต่างโดยใช้ขั้นตอนการควบคุมอัตราการค้นพบที่ผิดพลาด ชีวสารสนเทศศาสตร์ 2003, 19(3):368-375.
บทความนี้ใช้ข้อมูล microarray จำลองเพื่อเปรียบเทียบขั้นตอนการควบคุม FDR ที่ใช้การสุ่มตัวอย่างซ้ำสามขั้นตอนกับขั้นตอนของ Benjamini-Hochberg การสุ่มตัวอย่างสถิติการทดสอบทำใหม่เพื่อไม่ให้ถือว่ามีการกระจายตัวของสถิติการทดสอบของการแสดงออกที่แตกต่างกันของยีนแต่ละตัว

Verhoeven KJF, Simonsen KL, McIntyre LM: การใช้การควบคุมอัตราการค้นพบที่ผิดพลาด: เพิ่มพลังของคุณ ออยคอส 2005, 108(3):643-647.
เอกสารนี้อธิบายขั้นตอนของ Benjamini-Hochberg ให้ตัวอย่างการจำลอง และอภิปรายเกี่ยวกับการพัฒนาล่าสุดในด้าน FDR ที่สามารถให้พลังงานมากกว่าวิธี FDR ดั้งเดิม

Stan Pounds และ Cheng Cheng (2004) การปรับปรุงการประเมินอัตราการค้นพบที่ผิดพลาด 20 หมายเลข 11 พ.ศ. 2547 หน้า 1737–1745
บทความนี้จะแนะนำวิธีการที่เรียกว่าระยะห่าง LOESS histogram (SPLOSH) วิธีนี้เสนอให้ประเมิน FDR แบบมีเงื่อนไข (cFDR) สัดส่วนที่คาดหวังของผลบวกลวงที่มีเงื่อนไขว่ามีข้อค้นพบ 'มีนัยสำคัญ' k

Daniel Yekutieli, Yoav Benjamini (1998) การสุ่มตัวอย่างอัตราการค้นพบเท็จที่ควบคุมขั้นตอนการทดสอบหลายขั้นตอนสำหรับสถิติการทดสอบที่สัมพันธ์กัน Journal of Statistical Planning and Inference 82 (1999) 171-196
บทความนี้จะแนะนำขั้นตอนการควบคุม FDR ใหม่เพื่อจัดการกับสถิติการทดสอบที่มีความสัมพันธ์ซึ่งกันและกัน วิธีการนี้เกี่ยวข้องกับการคำนวณค่า p ตามการสุ่มตัวอย่างใหม่ คุณสมบัติของวิธีนี้ได้รับการประเมินโดยใช้การศึกษาแบบจำลอง

Yoav Benjamini และ Daniel Yekutieli (2001) การควบคุมอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายครั้งภายใต้การพึ่งพา The Annals of Statistics 2001, Vol. 29, ฉบับที่ 4, 1165–1188.
วิธี FDR ที่เสนอในตอนแรกมีไว้เพื่อใช้ในการทดสอบสมมติฐานหลายข้อของสถิติการทดสอบอิสระ เอกสารนี้แสดงให้เห็นว่าวิธี FDR ดั้งเดิมยังควบคุม FDR เมื่อสถิติการทดสอบมีการพึ่งพาการถดถอยเชิงบวกในแต่ละสถิติการทดสอบที่สอดคล้องกับสมมติฐานว่างจริง ตัวอย่างของสถิติการทดสอบที่ขึ้นต่อกันคือการทดสอบจุดยุติหลายจุดระหว่างกลุ่มการรักษาและกลุ่มควบคุมในการทดลองทางคลินิก

John D. Storey (2003) อัตราการค้นพบที่ผิดพลาดในเชิงบวก: การตีความแบบเบย์และค่า q พงศาวดารของสถิติ 2003, Vol. 31 ฉบับที่ 6, 2556-2578.
เอกสารนี้กำหนดอัตราการค้นพบเท็จเชิงบวก (pFDR) ซึ่งเป็นจำนวนที่คาดไว้ของผลบวกลวงจากการทดสอบทั้งหมดที่เรียกว่ามีนัยสำคัญ เนื่องจากมีการค้นพบเชิงบวกอย่างน้อยหนึ่งครั้ง บทความนี้ยังให้การตีความแบบเบย์เซียนของ pFDR

Yudi Pawitan, Stefan Michiels, Serge Koscielny, Arief Gusnanto และ Alexander Ploner (2005) อัตราการค้นพบที่ผิดพลาด ความไว และขนาดตัวอย่างสำหรับการศึกษา microarray Bioinformatics Vol. หมายเลข 21 13 พ.ศ. 2548 หน้า 3017–3024
เอกสารนี้อธิบายวิธีการคำนวณขนาดกลุ่มตัวอย่างสำหรับการศึกษาเปรียบเทียบสองตัวอย่างตามการควบคุม FDR และความไว

Grant GR, Liu J, Stoeckert CJ Jr. (2005) วิธีการอัตราการค้นพบที่ผิดพลาดในทางปฏิบัติเพื่อระบุรูปแบบของการแสดงออกเชิงอนุพันธ์ในข้อมูลไมโครอาร์เรย์ ชีวสารสนเทศศาสตร์ 2005, 21(11): 2684-90.
ผู้เขียนอธิบายวิธีการประมาณการเรียงสับเปลี่ยนและอภิปรายประเด็นเกี่ยวกับการเลือกวิธีการทางสถิติและการแปลงข้อมูลของผู้วิจัย นอกจากนี้ยังมีการสำรวจการเพิ่มประสิทธิภาพพลังงานที่เกี่ยวข้องกับการใช้ข้อมูล microarray

Jianqing Fan, Frederick L. Moore, Xu Han, Weijie Gu, การประเมินสัดส่วนการค้นพบเท็จภายใต้การพึ่งพาความแปรปรวนร่วมโดยพลการ เจ แอม สเตท 2555; 107(499): 1019–1035.
เอกสารนี้เสนอและอธิบายวิธีการควบคุม FDR โดยพิจารณาจากปัจจัยหลักของการประมาณค่าเมทริกซ์ความแปรปรวนร่วมของสถิติการทดสอบ

บทความการสมัคร

Han S, Lee KM, Park SK, Lee JE, Ahn HS, Shin HY, Kang HJ, Koo HH, Seo JJ, Choi JE et al: การศึกษาความสัมพันธ์ของจีโนมในมะเร็งเม็ดเลือดขาวเฉียบพลันในวัยเด็กในเกาหลี การวิจัยโรคมะเร็งเม็ดเลือดขาว 2010, 34(10):1271-1274.
นี่เป็นการศึกษาความสัมพันธ์ระหว่างจีโนมทั่วทั้งกลุ่ม (GWAS) ซึ่งทดสอบหนึ่งล้านนิวคลีโอไทด์พหุสัณฐาน (SNPs) เดียวสำหรับความสัมพันธ์กับมะเร็งเม็ดเลือดขาวชนิดลิมโฟบลาสติกที่กระตุ้นในวัยเด็ก (ALL) พวกเขาควบคุม FDR ที่ 0.2 และพบว่า 6 SNPs ใน 4 ยีนที่แตกต่างกันมีความสัมพันธ์อย่างมากกับความเสี่ยงทั้งหมด

Pedersen, K. S. , Bamlet, W. R. , Oberg, A. L. , de Andrade, M. , Matsumoto, M. E. , Tang, H. , Thibodeau, S. N. , Petersen, G. M. และ Wang, L. (2011) ลายเซ็นของ Leukocyte DNA Methylation ทำให้ผู้ป่วยมะเร็งตับอ่อนแตกต่างจากกลุ่มควบคุมสุขภาพ กรุณา ONE 6, e18223
การศึกษานี้ควบคุม FDR<0.05 when looking for differentially methylated genes between pancreatic adenoma patients and healthy controls to find epigenetic biomarkers of disease.

Daniel W. Lin, Liesel M. FitzGerald, Rong Fu, Erika M. Kwon, Siqun Lilly Zheng, Suzanne et.al.Genetic Variants ใน LEPR, CRY1, RNASEL, IL4 และ ARVCF Genes เป็นตัวบ่งชี้การพยากรณ์โรคมะเร็งต่อมลูกหมากเฉพาะ อัตราการเสียชีวิต (2011), Cancer Epidemiol Biomarkers Prev.2011;20:1928-1936 การศึกษานี้ตรวจสอบความผันแปรของยีนที่เลือกซึ่งเกี่ยวข้องกับการเริ่มเป็นมะเร็งต่อมลูกหมาก เพื่อทดสอบค่าพยากรณ์โรคในกลุ่มบุคคลที่มีความเสี่ยงสูง FDR ถูกใช้เพื่อจัดอันดับ single nucleotide polymorphisms (SNPs) และระบุ snps ที่มีอันดับสูงสุดที่น่าสนใจ

Radom-Aizik S, Zaldivar F, Leu SY, Adams GR, Oliver S, Cooper DM: ผลของการออกกำลังกายต่อการแสดงออกของ microRNA ในเซลล์เม็ดเลือดขาวตัวผู้รอบนอกของชายหนุ่ม วิทยาศาสตร์คลินิกและการแปล 2012, 5(1):32-38.
การศึกษานี้ตรวจสอบการเปลี่ยนแปลงการแสดงออกของ microRNA ก่อนและหลังการออกกำลังกายโดยใช้ microarray พวกเขาใช้ขั้นตอน Benjamini-Hochberg เพื่อควบคุม FDR ที่ 0.05 และพบว่า 34 จาก 236 microRNAs นั้นแสดงออกอย่างแตกต่าง ผู้วิจัยจึงเลือก microRNA จาก 34 เหล่านี้เพื่อยืนยันด้วย PCR แบบเรียลไทม์

เว็บไซต์

R แพ็คเกจสถิติ
http://genomine.org/qvalue/results.html
รหัส R ที่มีคำอธิบายประกอบใช้ในการวิเคราะห์ข้อมูลในกระดาษ Storey และ Tibshirani (2003) รวมถึงลิงก์ไปยังไฟล์ข้อมูล โค้ดนี้สามารถปรับให้ทำงานกับข้อมูลอาร์เรย์ได้

http://www.bioconductor.org/packages/release/bioc/html/qvalue.html
แพ็คเกจ qvalue สำหรับ R

http://journal.r-project.org/archive/2009-1/RJournal_2009-1.pdf

Journal R Project เป็นสิ่งพิมพ์แบบเปิดที่ตรวจสอบโดย peer-reviewed ของ R Foundation for Statistical Computing หนังสือเล่มนี้มีบทความเรื่อง 'Sample Size Estimation while Controlling False Discovery Rates for Microarray Experiments' โดย Megan Orr และ Peng Liu มีฟังก์ชันเฉพาะและตัวอย่างโดยละเอียด

http://strimmerlab.org/notes/fdr.html
เว็บไซต์นี้แสดงรายการซอฟต์แวร์ R สำหรับการวิเคราะห์ FDR พร้อมลิงก์ไปยังโฮมเพจสำหรับคำอธิบายคุณสมบัติของแพ็คเกจ

SAS
http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_multtest_sect001.htm
คำอธิบายของ PROC MULTTEST ใน SAS ซึ่งมีตัวเลือกสำหรับการควบคุม FDR โดยใช้วิธีการต่างๆ

สถานะ
http://www.stata-journal.com/article.html?article=st0209
จัดเตรียมคำสั่ง STATA สำหรับการคำนวณค่า q สำหรับโพรซีเดอร์การทดสอบหลายรายการ (คำนวณค่า FDR ที่ปรับแล้ว)

FDR_ทรัพยากรบนเว็บทั่วไป
http://www.math.tau.ac.il/~ybenja/fdr/index.htm
เว็บไซต์จัดการโดยนักสถิติที่มหาวิทยาลัยเทลอาวีฟ ซึ่งเปิดตัว FDR อย่างเป็นทางการเป็นครั้งแรก

http://www.math.tau.ac.il/~ybenja/
เว็บไซต์ FDR นี้มีข้อมูลอ้างอิงมากมาย การบรรยายเรื่อง FDR สามารถทบทวนได้

http://www.cbil.upenn.edu/PaGE/fdr.html
คำอธิบาย FDR ที่ดีและกระชับ มีการให้ข้อมูลสรุปโดยย่อที่มีประโยชน์พร้อมตัวอย่าง

http://www.rowett.ac.uk/~gwh/False-positives-and-the-qvalue.pdf
ภาพรวมโดยย่อของผลบวกลวงและค่า q

หลักสูตร

บทแนะนำเกี่ยวกับการควบคุมการค้นพบเท็จโดย Christopher R. Genovese ภาควิชาสถิติ Carnegie Mellon University
พาวเวอร์พอยต์นี้เป็นบทช่วยสอนที่ละเอียดมากสำหรับผู้ที่สนใจเรียนรู้พื้นฐานทางคณิตศาสตร์ของ FDR และรูปแบบต่างๆ ของ FDR

การทดสอบหลายครั้งโดย Joshua Akey, Department of Genome Sciences, University of Washington
พาวเวอร์พอยต์นี้ให้ความเข้าใจที่เข้าใจง่ายมากเกี่ยวกับการเปรียบเทียบหลายรายการและ FDR การบรรยายนี้เหมาะสำหรับผู้ที่ต้องการความเข้าใจง่ายๆ เกี่ยวกับ FDR โดยไม่ต้องใช้คณิตศาสตร์มากนัก

การประมาณอัตราการค้นพบเท็จในเครื่องในการตรวจหานิพจน์ดิฟเฟอเรนเชียลระหว่างสองคลาส
การนำเสนอโดย Geoffrey MacLachlan ศาสตราจารย์ University of Queensland ประเทศออสเตรเลีย
www.youtube.com/watch?v=J4wn9_LGPcY
การบรรยายผ่านวิดีโอนี้มีประโยชน์ในการเรียนรู้เกี่ยวกับ FDR ในพื้นที่ ซึ่งก็คือความน่าจะเป็นของสมมติฐานเฉพาะที่เป็นจริง โดยพิจารณาจากสถิติการทดสอบเฉพาะหรือค่า p

ขั้นตอนการควบคุมอัตราการค้นพบเท็จสำหรับการทดสอบแบบไม่ต่อเนื่อง
การนำเสนอโดย Ruth Heller ศาสตราจารย์ภาควิชาสถิติและการวิจัยการดำเนินงาน มหาวิทยาลัยเทลอาวีฟ
http://www.youtube.com/watch?v=IGjElkd4eS8
วิดีโอบรรยายนี้มีประโยชน์ในการเรียนรู้เกี่ยวกับการประยุกต์ใช้การควบคุม FDR กับข้อมูลที่ไม่ต่อเนื่อง มีการกล่าวถึงขั้นตอนขึ้นและลงหลายขั้นตอนสำหรับการควบคุม FDR เมื่อจัดการกับข้อมูลที่ไม่ต่อเนื่อง ทางเลือกอื่นที่ช่วยเพิ่มพลังในท้ายที่สุดจะได้รับการตรวจสอบ

บทความที่น่าสนใจ

ตัวเลือกของบรรณาธิการ

George A. Bermann
George A. Bermann
George Bermann ผู้อำนวยการศูนย์อนุญาโตตุลาการการค้าและการลงทุนระหว่างประเทศที่ Columbia Law School เป็นหน่วยงานที่มีชื่อเสียงระดับโลกในด้านกฎหมายเปรียบเทียบ กฎหมายของสหภาพยุโรป สัญญาการค้าระหว่างประเทศ การระงับข้อพิพาท WTO และการดำเนินคดีและอนุญาโตตุลาการข้ามชาติ เป็นเวลากว่าสี่ทศวรรษแล้วที่เขาเป็นอนุญาโตตุลาการระหว่างประเทศในข้อพิพาททางการค้าและการลงทุนในทุกภาคส่วน รวมถึงสัญญาการค้าทั่วไป การก่อสร้าง ทรัพย์สินทางปัญญา พลังงาน น้ำมันและก๊าซ กฎหมายการแข่งขัน ประกันภัย โทรคมนาคม เภสัชกรรม ผู้จัดจำหน่ายและแฟรนไชส์ , การขนส่งและการจ้างงาน. นอกจากนี้ เขายังทำหน้าที่เป็นพยานผู้เชี่ยวชาญอย่างสม่ำเสมอต่อหน้าศาลอนุญาโตตุลาการระหว่างประเทศและต่อหน้าศาลในคดีที่เกี่ยวข้องกับอนุญาโตตุลาการ Bermann เข้าร่วมคณะวิชากฎหมายของ Columbia ในปี 1975 เขาก่อตั้งทั้ง Columbia Journal of European Law และ European Legal Studies Center ซึ่งเขาทำหน้าที่เป็นผู้อำนวยการ นอกเหนือจากการสอนเต็มเวลาที่คณะวิชากฎหมายแล้ว เขายังเป็นสมาชิกคณะในเครือของ School of Law of Sciences Po ในปารีส และหลักสูตรปริญญาโท MIDS ในการระงับข้อพิพาทระหว่างประเทศในเจนีวา Bermann เป็นหัวหน้านักข่าวของ American Law Institute (ALI) สำหรับการปรับปรุงกฎหมายใหม่, The U.S. Law of International Commercial and Investor-State Arbitration ซึ่งเป็นโครงการ 12 ปีที่เสร็จสมบูรณ์ในปี 2019; มันเป็นการแถลงใหม่ของ ALI เกี่ยวกับประเด็นนี้ของกฎหมาย Bermann ยังเป็นผู้เขียนร่วมของ UNCITRAL Guide to the New York Convention on the Recognition and Enforcement of Foreign Arbitral Awards ประธานคณะกรรมการที่ปรึกษาระดับโลกของ New York International Arbitration Center (NYIAC) บรรณาธิการร่วมของ American ทบทวนอนุญาโตตุลาการระหว่างประเทศ และสมาชิกผู้ก่อตั้งคณะปกครองของศาลอนุญาโตตุลาการ ICC และสมาชิกคณะกรรมการประจำ
Ong Ming Johnson v. อัยการสูงสุด
Ong Ming Johnson v. อัยการสูงสุด
Columbia Global Freedom of Expression พยายามที่จะพัฒนาความเข้าใจเกี่ยวกับบรรทัดฐานระหว่างประเทศและระดับชาติและสถาบันที่ปกป้องการไหลของข้อมูลและการแสดงออกอย่างอิสระได้ดีที่สุดในชุมชนโลกที่เชื่อมต่อถึงกันพร้อมความท้าทายที่สำคัญที่ต้องเผชิญ เพื่อให้บรรลุภารกิจ Global Freedom of Expression รับหน้าที่และมอบหมายโครงการวิจัยและนโยบาย จัดกิจกรรมและการประชุม และมีส่วนร่วมและสนับสนุนการอภิปรายระดับโลกเกี่ยวกับการคุ้มครองเสรีภาพในการแสดงออกและข้อมูลในศตวรรษที่ 21
Subramanian Swamy v. สหภาพอินเดีย
Subramanian Swamy v. สหภาพอินเดีย
Columbia Global Freedom of Expression พยายามที่จะพัฒนาความเข้าใจเกี่ยวกับบรรทัดฐานระหว่างประเทศและระดับชาติและสถาบันที่ปกป้องการไหลเวียนของข้อมูลและการแสดงออกอย่างอิสระได้ดีที่สุดในชุมชนโลกที่เชื่อมต่อถึงกันพร้อมความท้าทายที่สำคัญที่ต้องเผชิญ เพื่อให้บรรลุภารกิจ Global Freedom of Expression รับหน้าที่และมอบหมายโครงการวิจัยและนโยบาย จัดกิจกรรมและการประชุม และมีส่วนร่วมและสนับสนุนการอภิปรายระดับโลกเกี่ยวกับการคุ้มครองเสรีภาพในการแสดงออกและข้อมูลในศตวรรษที่ 21
รีวิว: 'เงิน: เรื่องจริงของสิ่งที่สร้างขึ้น
รีวิว: 'เงิน: เรื่องจริงของสิ่งที่สร้างขึ้น'
คณาจารย์ 4 คนพูดถึงความหมายของเดือนประวัติศาสตร์คนผิวดำในวันนี้
คณาจารย์ 4 คนพูดถึงความหมายของเดือนประวัติศาสตร์คนผิวดำในวันนี้
ประเทศของเราอยู่ท่ามกลางการคำนวณทางเชื้อชาติ อาจารย์จากโคลัมเบียหารือว่าสถานการณ์ปัจจุบันของเราสะท้อนอย่างไรในเดือนประวัติศาสตร์คนผิวดำ
สารคดี
สารคดี
เรียนรู้เกี่ยวกับโครงการสารคดีที่โรงเรียนวารสารศาสตร์โคลัมเบีย มาเป็นนักเล่าเรื่องวิดีโอด้วยหลักสูตรปริญญาโทและสารคดีหรือสำรวจกิจกรรมสารคดีที่ J-School และผลงานล่าสุดของนักเรียน
หยิงเฉียน
หยิงเฉียน