Word2Vector เป็นการพัฒนาการโดย บริษัท Google และกลายเป็น Standard ในการทำ Recognition , Deep learning โดย จักรกล สามารถเดา ข้อความที่มีการสื่อสารของ คนได้ (เพราะเครื่องจักร ไม่รู้จักความหมาย ต้องเป็นตัวเลข ถึงจะเข้าใจ)
https://code.google.com/archive/p/word2vec/
ของ microsoft
https://github.com/GuntaButya/Word2Vec.Net-CSharp
หลักการ Word2Vec จะเปลี่ยน Word แต่ละ ตัวให้มีน้ำหนัก ใน Array ตามจำนวนของตัวหนังสือที่ใช้งานในรูปแบบของ Vector เช่น ภาษาอังกฤษมีคำใช้งาน ประมาณ 3000 คำ คำว่า
English ก็จะมี ค่า เป็น [ 0.2 , 0.01.... (ไป 3000 ตัว)] เป็นต้น โดย เมื่อมีการ Train ด้วย AI Learning
บอกว่า บทความนี้ เป็นเรื่องอะไร จดหมายอะไร ก็จะได้ค่า เฉพาะออกมา เมื่อ ต้องการใช้งาน เช่น ต้องการบอก ว่า
Book เทียบกับ Paper ก็ให้นำ Vector ทั้ง 2 มาหา Dot ระะหว่างกัน โดยหลักการ Distance ก็ทำแบบ CAD เลย คือ
Vector(Book)-Vector(Paper) แล้วหาความยาว
โดยที่ D จะแสดงความไกล้และ ไกล ออกมาถ้าไกล้ 1 แสดงว่าข้อความเป็นพวกเดียวกัน เป็นต้น
เมื่อมาใช้งาน ในการอ่านเอกสาร ก็จะมีการนำไป Operator + ก็จะได้ผลบอกว่าเอกสารนั้น ประมาณเรื่องอะไร เช่น จดหมาย สมัครงาน, ขาย ของ, หรือ Spam เป็นต้น
การทดลอง Online ทดสอบ ได้ จาก Web นี้
http://bionlp-www.utu.fi/wv_demo/
เลือก เป็น Model เป็น English GoogleNew
ทดลอง เทียบ Similar Two word
Bangkok กับ Thailand
และ ลองเปลียน Thailand กับ China
จะเห็นได้ว่า ค่า Bangkok Thailand มีค่ามากกว่า แสดงว่ามีความไกล้เคียงกัน
สำหรับภาษาไทย มี Library อยู่ หลายคน จะเป็น ค่า Matrix ตามจำนวนคำในภาษาไทย แต่ละคนจะไม่เท่ากัน
ไม่มีความคิดเห็น:
แสดงความคิดเห็น