หุ่นปัญญาประดิษฐ์ติดหล่มภาษาไทย

การพัฒนาหุ่นยนต์เดินสองขาเหมือนมนุษย์หรือฮิวแมนนอยด์ ไม่ใช่เรื่องยากแล้วยุคนี้ หรืออาจไม่สำคัญด้วยซ้ำเมื่อหุ่นยนต์ล้อขับเคลื่อนอิสระเดินทางได้ทุกสภาพพื้นผิวได้ดีกว่า

ที่ยากเย็นแสนสาหัสสำหรับนักพัฒนาหุ่นยนต์ไทยรวมถึงการพัฒนาปัญญาประดิษฐ์คือทำอย่างไรหุ่นยนต์จะฟังคำสั่งภาษาไทยรู้เรื่องอุปสรรคที่สำคัญไม่ใช่อื่นไกลก็ภาษาไทยที่เขียนกันเป็นพรืดนี่แหละแม้แต่สมองกลยังศิโรราบ

ที่ผ่านมานักวิจัยภาษาหุ่นยนต์ต่างคนต่างคิดหากลวิธีทำให้สมองกลเข้าใจภาษาไทยทำให้มาตรฐานการแบ่งคำตัดคำแตกต่างกันไปของใครของมันและยังทำให้งานวิจัยด้านสมองกลอัจฉริยะของไทยไม่คืบหน้าด้วย

ดร.กฤษณ์โกสวัสดิ์ นักวิจัยหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษาศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ(เนคเทค)ยอมรับสภาพว่าตอนนี้เราต้องถอยหลังกลับไปเริ่มตั้งแต่การแบ่งคำแบ่งวลีและประโยคในที่สุด

นี่คือที่มาของโครงการการวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย(BenchmarkforEnhancingtheStandardofThailanguageporcessing:BEST)ที่เนคเทคประกาศหาสุดยอดโปรแกรมเมอร์มาร่วมแข่งขัน

การแข่งขันเปิดสำหรับ2ประเภทได้แก่นักศึกษาและประชาชนทั่วไปปีนี้เป็นการแข่งขันครั้งแรกในหัวข้อการแบ่งคำไทยมีผู้สนใจเข้าร่วมแข่งทั้งหมด20ทีมทั่วประเทศแบ่งเป็นกลุ่มนักเรียนนิสิตนักศึกษา12ทีมและประชาชนทั่วไปอีก8ทีม

แต่ละทีมจะได้รับร่างหลักเกณฑ์ที่ผู้เชี่ยวชาญจัดทำขึ้นและฐานข้อมูลคำ5ล้านคำที่จะเปิดให้ดาวน์โหลดเป็นชุดจำนวน6ชุดคำและต้องพัฒนาโปรแกรมให้สามารถตัดแบ่งข้อความภาษาไทยออกเป็นคำๆให้ได้ตามหลักเกณฑ์ที่กำหนดไว้อาจจะใช้หรือไม่ใช้คลังข้อความที่ได้เตรียมไว้ให้ก็ได้นอกจากนี้ยังสามารถสรรหาทรัพยากรอื่นๆมาเพิ่มเติมได้เองเช่นกฎการสะกดคำไทยรายการคำศัพท์และชนิดของคำจากพจนานุกรมเป็นต้นเพื่อให้ได้ซอฟต์แวร์แบ่งคำภาษาไทยที่ดีที่สุด

เราคาดว่าการแข่งขันในครั้งนี้จะสร้างมาตรฐานที่เป็นทีเสริมว่าการแข่งขันแบ่งคำไทยนี้อาจจะมีขึ้นอย่างน้อย2-3ครั้งเพื่อให้มาตรฐานมีความแม่นยำน่าเชื่อถือจากนั้นจึงขยับไปสู่ขั้นนิพจน์ระบุนาม

นิพจน์ระบุนามหรือคำเฉพาะที่ระบุสถานที่ชื่อเฉพาะเนื่องจากเป็นสิ่งที่ไม่มีในพจนานุกรมและชื่อเฉพาะหรือศัพท์ใหม่เกิดขึ้นมาตลอดเวลา เช่นซานติก้าที่หลายคนไม่เคยได้ยินก็กลายเป็นศัพท์ที่ถูกสืบค้นมากเป็นอันดับ1ในช่วงเวลา1เดือนที่ผ่านมาและระบบแบ่งคำที่มีอยู่ก็จะไม่สามารถแบ่งได้เนื่องจากไม่รู้จักและจะแบ่งรหัสที่ระบุไว้คือซา-น-ติ-ก้-า

ความซับซ้อนของภาษาไทยไม่ใช่เป็นปัญหาเดียวในโลกเพราะแต่ละภาษามีความซับซ้อนเฉพาะตัวไม่ว่าจะเป็นภาษาลาวที่มีรากฐานของภาษาแบบเดียวกับภาษาไทยนั้นมีการใช้เครื่องหมายคอมมา(,)และฟูลสต็อป(.)เพื่อแบ่งคำและประโยคในขณะที่พม่าและภูฏานก็มีการแบ่งพยางค์ชัดเจนทำให้การพัฒนาเทคนิคการแบ่งคำทำได้ง่ายกว่า

ไม่เฉพาะแต่ภาษาไทยที่หินภาษาที่ซับซ้อนกว่าก็มีให้เห็นเช่นภาษาอาหรับที่มีทั้งการละบางคำทิ้งหรือการเปลี่ยนรูปคำไปตามบริบททำให้แบ่งคำได้ยากหรือภาษาเขมรที่มีความกำกวมไม่มีการแบ่งพยางค์หรือคำที่แน่นอนแต่ก็มีตัวจบประโยคปรากฏให้เห็น

ตัดให้ดีมีชัยสู่สมองกล

เราพัฒนามาเกิน10ปีแล้วแต่ท้ายที่สุดเราก็ต้องกลับมาสู่โครงการเบสต์มาเริ่มตั้งไข่แบ่งคำใหม่ซึ่งจากฐานข้อมูลคำที่มีมากขึ้นรวมถึงเทคโนโลยีที่พัฒนาขึ้นจะช่วยให้โครงการวิจัยของเราก้าวหน้าเช่นโปรแกรมแปลภาษาโปรแกรมสืบค้นข้อมูลการสั่งงานด้วยเสียงและการสังเคราะห์เสียงดร.ชัยกล่าว

โปรแกรมแปลภาษาไทย-อังกฤษและอังกฤษ-ไทยที่ปัจจุบันความแม่นยำอยู่ที่60%แปลอังกฤษเป็นไทยได้แต่ไม่สามารถแปลไทยเป็นอังกฤษได้เนื่องจากยังตัดคำได้ไม่สมบูรณ์ เช่นเดียวกับโปรแกรมสืบค้นในขณะที่ซอฟต์แวร์การสั่งงานด้วยเสียงก็ไม่สามารถทำงานได้สำเร็จเหมือนเวอร์ชั่นภาษาญี่ปุ่นจีนและอังกฤษที่ปัจจุบันทำได้แล้วการสังเคราะห์เสียงภาษาไทยยังผิดเพนโลยีที่เป็นพื้นฐานเช่นนี้สำเร็จก็จะทำให้การวิจัยสมองกลอัจฉริยะเดินหน้าไปอย่างรวดเร็วดังเช่นเนคเทคที่จะมี2เทคโนโลยีใหม่ที่อยู่ระหว่างการพัฒนาคืออับดุลที่วิเคราะห์คำได้ดีขึ้นและการสรุปความอัตโนมัติ(Summarization)ทำหน้าที่สรุปใจความสำคัญไม่ว่าจะเป็นอีเมลหรือข่าวแต่มีความยากในระดับสูงเพราะต้องตัดทั้งคำวลีประโยคและต้องเข้าใจเนื้อหาทั้งหมดก่อนที่จะสรุปดร.ชัยกล่าว

นอกเหนือจากองค์ความรู้ใหม่และเทคนิคใหม่ผู้แข่งขันยังมีส่วนร่วมในการพัฒนามาตรฐานการประมวลผลการแบ่งคำจากร่างหลักเกณฑ์ที่นำไปใช้ซึ่งทางผู้จัดจะได้รับรู้ข้อดีข้อเสียและหาวิธีการแก้ไข

นอกจากนี้เนคเทคยังมีแผนจะจัดแข่งขันในระดับนานาชาติโดยใช้ภาษาไทยเป็นโจทย์เพื่อเปิดโอกาสให้ชาวต่างชาติหรือนักศึกษาไทยในต่างประเทศได้เข้าร่วมโดยตั้งเป้าจัดการแข่งขันขึ้นภายในงานSymposiumonNaturalLanguageProcessing(SNLP)ที่จะจัดขึ้นในเดือนตุลาคม2552นี้

สาลินีย์ทับพิลา

โรฮิงญา ถูกทหารพม่าทารุณ! เหรียญอีกด้านที่สื่อนอกละเลย

การเปิดประเด็น ทหารเรือไทย ทารุณกรรมผู้อพยพชาวโรฮิงญา ก่อนจะตามมารุมถล่มอีกชุดใหญ่จากสื่อหัวใหญ่ๆ ทั่วโลก ล่าสุดก็เป็นซีเอ็นเอ็นที่ย้ำหัวตะปูด้วยภาพที่อ้างว่า ทหารเรือไทยชักลากเรือผู้อพยพออกไปลอยเท้งเต้งกลางทะเล

เรื่องล่าสุดของหมวด สังคม

ดูหมวด สังคม ทั้งหมด