Question answering (QA), u prijevodu „odgovaranje na pitanja“, jedan je od načina pretraživanja informacija. On pronalazi odgovore na pitanja postavljena govornim jezikom. QA uključuje širok opus vrsta pitanja na koja može odgovoriti; činjenice, nabrajanja, definicije, pitanja „zašto“ i „kako“, hipotetska,... Zbirke za pretragu odgovora variraju od malih lokalnih kolekcija dokumenta, preko dokumenata internih organizacijado pretrage cijelog "world wide weba".
Postoje dvije vrste QA-a, „određeno-područje“ (closed-domain) i „opće-područje“ (open-domain). Closed-domain se bavi odgovaranjem na pitanja iz određenog područja, dok open-domain odgovara na pitanja o svemu, oslanjajući se na svjetsko znanje i opću ontologiju. Open-domain sustav ima više dostupnih podataka iz kojih se može pronaći traženi odgovor.
Povijest
Sustavi za odgovaranje na pitanja su se počeli razvijati u šezdesetim godinama prošlog stoljeća. Najpoznatiji sustavi tog doba su bili „Baseball“ i „Lunar“. „Baseball“ je odgovarao na pitanja o američkoj bejzbolskoj ligi u periodu jedne godine, dok je „Lunar“ odgovarao na pitanja o geološkim analizama kamenja vraćenog sa misije na Mjesec. Posebnost prvih sustava leži u tome što su jezge baza podataka i sustavi znanja vlastoručno pisali stručnjaci izabranog područja. Sedamdesete i osamdesete godine prošlog stoljeća su obilježili sustavi poput „Unix Consultanta“ i „LILOG-a“. Prvi je odgovarao na pitanja povezana sa Unixovim operativnim sustavom. „LILOG“ je davao informacije turističkog sadržaja o gradovima u Njemačkoj. Iako su oba sustava ostali na stupnju jednostavnih demonstracija, pomogli su razvoju teorija o računalnoj lingvistici i računalnom zaključivanju. U kasnim devedesetim, na godišnjoj konferenciji o pretraživanju teksta (Text Retrieval Conference), su sudjelovali sustavi za odgovaranje na pitanja od kojih se očekivalo da odgovore na pitanja o bilo kojoj temi, pretražujući zbirke teksta koje su se mijenjale iz godine u godinu. To nadmetanje je potaknulo istraživanje i razvoj sustava za odgovaranje na pitanja (QA). Već 2004. najbolji sustav na natjecanju je postigao 77 % točnih, na činjenicama temeljenih, odgovora. Prošle godine na istoj konferenciji su uključene i zbirke blog podataka koji sadrže i govorni, a ne samo književni jezik.
Arhitektura
QA sustave sačinjavaju: „modul za klasificiranje pitanja“ (question classifier module) koji određuje vrstu pitanja i vrstu odgovora, „modul za klasificiranje dokumenata“ (document retrieval module) , on prepoznaje dokument ili odlomak u dokumentu koji najvjerojatnije sadrži odgovor, „filter“, odabire male dijelove teksta koji sadrže nizove podataka kao i očekivani odgovor te „modul za izolaciju samog odgovora“ (answer extraction module) koji traži daljnje indikatore u tekstu kako bi odredio može li kandidat za odgovaranje na pitanje zbilja dati točan odgovor.
Metode
QA sustavi ovise o kvaliteti zbirke koju pretražuju. Ako u zbirci ne postoji dokument koji sadrži odgovor, QA sustav ne može ni dati odgovor. U velikim zbirkama kao što je web, vrlo je vjerojatno da će grumeni informacija biti raspršeni u mnogo različitih smjerova, različitim kontekstima i dokumentima, što dovodi do dvije beneficije:
- ako nam se informacija pojavljuje u nekoliko različitih oblika, opterećenje QA sustava koji provodi kompleksne operacije da razumije tekst, je smanjeno
- točan odgovor se može odvojiti od onih „lažno pozitivnih“, oslanjajući se na to da će se točan odgovor pojaviti više puta u dokumentima od onih netočnih.
Jedan od načina pretrage koristi ključne riječi kako bi pronašao zanimljive ulomke i rečenice u pronađenim dokumentima, koje potom filtrira prema željenoj vrsti odgovora. Rangiranje odgovora se radi prema redoslijedu riječi ili sličnosti sa upitom. Pojedini sustavi koriste obrasce u nadi da je odgovor samo preformulirano pitanje. Na primjer, ako je pitanje „Što je TV?“, sustav bi pronašao poveznicu „Što je X?“ i tražio dokumente koji počinju sa „X je Y.“. Ovaj način je jako efikasan ako tražimo informacije tipa imena, datumi, lokacije.
Drugi način pretrage je napredniji, u njemu se koriste sintaktički, semantički i kontektualni procesi kako bi se pronašao odgovor. Ti sustavi često koriste i „svjetsko znanje“ koje pronalaze u ontologijama („WordNet“ i „Suggested Upper Merged Ontology – SUMO“) kako bi povećali dostupne izvore pomoću semantičkih poveznica i definicija. Za upite koji odgovaraju na pitanja „kako“ i „zašto“, hipotetske postulate, dvosmislena pitanja i slična, treba dublje razumijevanje pitanja kako bi se uspio pronaći odgovor.
Jedna od metoda je i uzimanje odgovora koji se zatim pretvori u pitanje. Npr. „Volim jesti ribu.“ „Zašto volim jesti ribu?“ „Zbog okusa.“ „Što je u okusu ribe tako dobro?“...
Problemi
Grupa istraživača je 2002. godine, pisajući plan istraživanja „odgovaranja na pitanja“, otkrila sljedeće probleme:
- Kategorije pitanja (Question classes)
- Obrada pitanja (Question processing)
- Kontekst i QA (Context and Q&A)
- Baze podataka za QA (Data sources for Q&A)
- Izoliranje odgovora (Answer extraction)
- Formuliranje odgovora (Answer formulation)
- Brzina pronalaženja odgovora (Real time question answering)
- Višejezično odgovaranje na pitanja (Multi-lingual question answering)
- Međudjelatan QA (Interactive Q&A)
- Napredno zaključivanje za QA (Advanced reasoning for Q&A)
- Korisnički profili za QA (User profiling for Q&A)