De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

El análisis de sentimientos (también conocido como minería de opiniones o IA de emociones ) es el uso del procesamiento del lenguaje natural , análisis de texto , lingüística computacional y biometría para identificar, extraer, cuantificar y estudiar sistemáticamente estados afectivos e información subjetiva. El análisis de sentimientos se aplica ampliamente a los materiales de voz del cliente , como revisiones y respuestas a encuestas, redes sociales y en línea, y materiales de atención médica para aplicaciones que van desde el marketing hasta el servicio al cliente y la medicina clínica.

Ejemplos [ editar ]

El objetivo y los desafíos del análisis de sentimientos se pueden mostrar a través de algunos ejemplos simples.

Casos sencillos [ editar ]

  • Coronet tiene las mejores líneas de cruceros de todo el día.
  • Bertram tiene un casco en V profundo y atraviesa fácilmente los mares.
  • Los cruceros diurnos de colores pastel de los años 80 de Florida son feos.
  • No me gustan los cruceros de cabina viejos .

Ejemplos más desafiantes [ editar ]

  • No me disgustan los cruceros de cabina. ( Manejo de negación )
  • No me gustan las motos de agua no es lo mío. (Negación, orden de palabras invertido )
  • A veces realmente odio las semirrígidas . ( Adverbial modifica el sentimiento)
  • ¡Realmente me encantaría salir con este clima! (Posiblemente sarcástico )
  • Chris Craft es más guapo que Limestone. (Dos marcas , identificar el objetivo de la actitud es difícil).
  • Chris Craft es más atractivo que Limestone, pero Limestone proyecta navegabilidad y confiabilidad. (Dos actitudes, dos marcas).
  • La película es sorprendente con muchos giros de trama inquietantes. (Término negativo usado en sentido positivo en ciertos dominios).
  • Debería ver su menú de postres decadente. (El término actitudinal ha cambiado de polaridad recientemente en ciertos dominios)
  • Me encanta mi móvil, pero no se lo recomendaría a ninguno de mis compañeros. (Sentimiento positivo calificado, difícil de categorizar)
  • ¡El concierto de la semana que viene estará bien koide9! ("¿Quoi de neuf?" Fr .: "¿Qué hay de nuevo?". Los términos recién acuñados pueden ser muy actitudinales pero volátiles en polaridad y, a menudo, fuera del vocabulario conocido).

Tipos [ editar ]

Una tarea básica en el análisis de sentimientos es clasificar la polaridad de un texto dado a nivel de documento, oración o característica / aspecto, ya sea que la opinión expresada en un documento, una oración o una característica / aspecto de entidad sea positiva, negativa o neutral. La clasificación de sentimiento avanzada, "más allá de la polaridad", se centra, por ejemplo, en estados emocionales como el disfrute, la ira, el disgusto, la tristeza, el miedo y la sorpresa. [1]

Los precursores del análisis sentimental incluyen el General Inquirer, [2] que proporcionó pistas para cuantificar patrones en el texto y, por separado, la investigación psicológica que examinó el estado psicológico de una persona basándose en el análisis de su comportamiento verbal. [3]

Posteriormente, el método descrito en una patente por Volcani y Fogel, [4] analizó específicamente el sentimiento e identificó palabras y frases individuales en el texto con respecto a diferentes escalas emocionales. Un sistema actual basado en su trabajo, llamado EffectCheck, presenta sinónimos que pueden usarse para aumentar o disminuir el nivel de emoción evocada en cada escala.

Muchos otros esfuerzos posteriores fueron menos sofisticados, utilizando una mera visión polar del sentimiento, de positivo a negativo, como el trabajo de Turney, [5] y Pang [6], quienes aplicaron diferentes métodos para detectar la polaridad de reseñas de productos y reseñas de películas, respectivamente. . Este trabajo está a nivel de documento. También se puede clasificar la polaridad de un documento en una escala multidireccional, lo que intentaron Pang [7] y Snyder [8], entre otros: Pang y Lee [7] ampliaron la tarea básica de clasificar una reseña de una película como positiva o negativa. para predecir calificaciones de estrellas en una escala de 3 o 4 estrellas, mientras que Snyder [8] realizó un análisis en profundidad de las reseñas de restaurantes, prediciendo calificaciones para varios aspectos del restaurante dado, como la comida y el ambiente (en una escala de cinco estrellas).

Los primeros pasos para unir varios enfoques (aprendizaje, léxico, basado en el conocimiento, etc.) se tomaron en el Simposio de primavera de la AAAI de 2004, donde lingüistas, informáticos y otros investigadores interesados ​​primero alinearon intereses y propusieron tareas compartidas y conjuntos de datos Investigación computacional sistemática sobre el afecto, el atractivo, la subjetividad y el sentimiento en el texto. [9]

Aunque en la mayoría de los métodos de clasificación estadística, la clase neutra se ignora bajo el supuesto de que los textos neutrales se encuentran cerca del límite del clasificador binario, varios investigadores sugieren que, como en todo problema de polaridad, deben identificarse tres categorías. Además, se puede demostrar que clasificadores específicos como Max Entropy [10] y SVMs [11] pueden beneficiarse de la introducción de una clase neutra y mejorar la precisión general de la clasificación. En principio, hay dos formas de operar con una clase neutra. O bien, el algoritmo procede identificando primero el lenguaje neutral, filtrándolo y luego evaluando el resto en términos de sentimientos positivos y negativos, o construye una clasificación de tres vías en un solo paso.[12] Este segundo enfoque a menudo implica estimar una distribución de probabilidad sobre todas las categorías (por ejemplo,clasificadores ingenuos de Bayes implementados por el NLTK ). El uso de una clase neutral y cómo hacerlo depende de la naturaleza de los datos: si los datos están claramente agrupados en un lenguaje neutral, negativo y positivo, tiene sentido filtrar el lenguaje neutral y enfocarse en la polaridad entre sentimientos positivos y negativos. Si, por el contrario, los datos son en su mayoría neutrales con pequeñas desviaciones hacia el afecto positivo y negativo, esta estrategia haría más difícil distinguir claramente entre los dos polos.

Un método diferente para determinar el sentimiento es el uso de un sistema de escala mediante el cual las palabras comúnmente asociadas con tener un sentimiento negativo, neutral o positivo con ellas reciben un número asociado en una escala de −10 a +10 (de más negativo a más positivo) o simplemente de 0 a un límite superior positivo como +4. Esto hace posible ajustar el sentimiento de un término dado en relación con su entorno (generalmente en el nivel de la oración). Cuando se analiza un fragmento de texto no estructurado utilizando el procesamiento del lenguaje natural , cada concepto en el entorno especificado recibe una puntuación basada en la forma en que las palabras de sentimiento se relacionan con el concepto y su puntuación asociada. [13] [14] [15]Esto permite avanzar hacia una comprensión más sofisticada del sentimiento, porque ahora es posible ajustar el valor del sentimiento de un concepto en relación con las modificaciones que pueden rodearlo. Las palabras, por ejemplo, que intensifican, relajan o niegan el sentimiento expresado por el concepto pueden afectar su puntuación. Alternativamente, los textos pueden recibir un puntaje de fuerza de sentimiento positivo y negativo si el objetivo es determinar el sentimiento en un texto en lugar de la polaridad y fuerza general del texto. [dieciséis]

Hay varios otros tipos de análisis de sentimientos como: análisis de sentimiento basado en aspectos, análisis de sentimiento de calificación (positivo, negativo, neutral), análisis de sentimiento multilingüe y detección de emociones.

Identificación de subjetividad / objetividad [ editar ]

Esta tarea se define comúnmente como clasificar un texto dado (generalmente una oración) en una de dos clases: objetiva o subjetiva. [17] Este problema a veces puede ser más difícil que la clasificación de polaridad. [18] La subjetividad de las palabras y frases puede depender de su contexto y un documento objetivo puede contener oraciones subjetivas (por ejemplo, un artículo de noticias que cita las opiniones de las personas). Además, como menciona Su, [19] los resultados dependen en gran medida de la definición de subjetividad utilizada al anotar textos. Sin embargo, Pang [20] mostró que eliminar oraciones objetivas de un documento antes de clasificar su polaridad ayudó a mejorar el rendimiento.

La identificación subjetiva y objetiva, las subtareas emergentes del análisis de sentimientos para utilizar características sintácticas y semánticas y el conocimiento del aprendizaje automático para identificar una oración o documento son hechos u opiniones. La conciencia de reconocer los hechos y las opiniones no es reciente, posiblemente fue presentada por primera vez por Carbonell en la Universidad de Yale en 1979. [ aclarar ]

El término objetivo se refiere a que el incidente lleve información fáctica. [21]

  • Ejemplo de una oración objetiva: "Para ser elegido presidente de los Estados Unidos, un candidato debe tener al menos treinta y cinco años de edad".

El término subjetivo describe que el incidente contiene información no fáctica en diversas formas, como opiniones personales, juicios y predicciones. También conocido como 'estados privados' mencionado por Quirk et al. [22] En el ejemplo a continuación, refleja un estado privado "Nosotros los estadounidenses". Además, la entidad objetivo comentada por las opiniones puede tomar formas de servicio, desde productos tangibles hasta asuntos tópicos intangibles indicados en Liu (2010). [23] Además, Liu (2010) observó tres tipos de actitudes: 1) opiniones positivas, 2) opiniones neutrales y 3) opiniones negativas. [23]

  • Ejemplo de una oración subjetiva: "Los estadounidenses debemos elegir un presidente que sea maduro y capaz de tomar decisiones acertadas".

Este análisis es un problema de clasificación. [24]

Las colecciones de palabras o indicadores de fase de cada clase se definen para localizar patrones deseables en texto sin anotaciones. Para la expresión subjetiva, se ha creado una lista de palabras diferente. En Riloff et al. (2003), varios investigadores del campo del procesamiento lingüístico y natural del lenguaje han desarrollado listas de indicadores subjetivos en palabras o frases. [25] Debe crearse un diccionario de reglas de extracción para medir expresiones dadas. A lo largo de los años, en la detección subjetiva, la extracción de características progresa desde la curación manual de características en 1999 hasta el aprendizaje automático de características en 2005. [26] Por el momento, los métodos de aprendizaje automatizados pueden separarse aún más en aprendizaje automático supervisado y no supervisado. Los investigadores académicos han explorado ampliamente la extracción de patrones con el proceso de aprendizaje automático con texto anotado y sin anotar.

Sin embargo, los investigadores reconocieron varios desafíos en el desarrollo de conjuntos fijos de reglas para las expresiones de manera respetable. Gran parte de los desafíos en el desarrollo de reglas provienen de la naturaleza de la información textual. Se han reconocido seis desafíos en los investigadores de serval: 1) expresiones metafóricas, 2) discrepancias en los escritos, 3) sensibles al contexto, 4) palabras representadas con menos usos, 5) sensibles al tiempo y 6) volumen cada vez mayor.

  1. Expresiones metafóricas. El texto contiene expresión metafórica que puede repercutir en el desempeño de la extracción. [27] Además, las metáforas adoptan diferentes formas, lo que puede haber contribuido al aumento de la detección.
  2. Discrepancias en los escritos. Para el texto obtenido de Internet, las discrepancias en el estilo de escritura de los datos de texto específicos involucran distintos géneros y estilos de escritura.
  3. Sensible al contexto. La clasificación puede variar según la subjetividad u objetividad de las oraciones anteriores y siguientes. [24]
  4. Atributo sensible al tiempo. La tarea se ve desafiada por el atributo sensible al tiempo de algunos datos textuales. Si un grupo de investigadores quiere confirmar un hecho en las noticias, necesitan más tiempo para la validación cruzada, de lo que la noticia se vuelve desactualizada.
  5. Palabras clave con menos usos.
  6. Volumen en constante crecimiento. La tarea también se ve desafiada por el gran volumen de datos textuales. La naturaleza cada vez mayor de los datos textuales hace que la tarea sea abrumadoramente difícil para que los investigadores la completen a tiempo.

Anteriormente, la investigación se centró principalmente en la clasificación a nivel de documentos. Sin embargo, la clasificación de un nivel de documento tiene menos precisión, ya que un artículo puede tener diversos tipos de expresiones involucradas. La evidencia de la investigación sugiere un conjunto de artículos de noticias que se espera que dominen por la expresión objetiva, mientras que los resultados muestran que consistió en más del 40% de expresión subjetiva. [21]

Para superar esos desafíos, los investigadores concluyen que la eficacia del clasificador depende de la precisión de los patrones del aprendiz. Y el alumno se alimenta con grandes volúmenes de datos de capacitación anotados que superaron a los capacitados en funciones subjetivas menos completas. Sin embargo, uno de los principales obstáculos para ejecutar este tipo de trabajo es generar un gran conjunto de datos de oraciones anotadas manualmente. El método de anotación manual se ha visto menos favorecido que el aprendizaje automático por tres razones:

  1. Variaciones en comprensiones. En la tarea de anotación manual, el desacuerdo sobre si una instancia es subjetiva u objetiva puede ocurrir entre los anotadores de serval debido a la ambigüedad de los idiomas.
  2. Errores humanos. La tarea de anotación manual es una tarea meticulosa, requiere una concentración intensa para terminar.
  3. Pérdida de tiempo. La tarea de anotación manual es un trabajo asiduo. Riloff (1996) muestra que 160 textos cuestan 8 horas para que un anotador los termine. [28]

Todas estas razones mencionadas pueden afectar la eficiencia y eficacia de la clasificación subjetiva y objetiva. En consecuencia, se diseñaron dos métodos de arranque para aprender patrones lingüísticos a partir de datos de texto no anotados. Ambos métodos comienzan con un puñado de palabras iniciales y datos textuales sin anotar.

  1. Meta-Bootstrapping de Riloff y Jones en 1999. [29] Nivel uno: Genere patrones de extracción basados ​​en las reglas predefinidas y los patrones extraídos por el número de palabras semilla que contiene cada patrón. Nivel dos: Las 5 palabras principales se marcarán y se agregarán al diccionario. Repetir.
  2. Basilisk ( B ootstrapping A pproach to S emantIc L exicon I nduction usando S emantic K nowledge) por Thelen y Riloff. [30] Paso uno: generar patrones de extracción Paso dos: mover los mejores patrones del conjunto de patrones al conjunto de palabras candidatas. Paso tres: las 10 palabras principales se marcarán y se agregarán al diccionario. Repetir.

En general, estos algoritmos destacan la necesidad de un reconocimiento y extracción automáticos de patrones en tareas subjetivas y objetivas.

El clasificador subjetivo y de objetos puede mejorar las aplicaciones servales del procesamiento del lenguaje natural. Uno de los principales beneficios del clasificador es que popularizó la práctica de los procesos de toma de decisiones basados ​​en datos en varias industrias. Según Liu, las aplicaciones de la identificación subjetiva y objetiva se han implementado en los negocios, la publicidad, los deportes y las ciencias sociales. [31]

  • Clasificación de reseñas en línea: en la industria empresarial, el clasificador ayuda a la empresa a comprender mejor los comentarios sobre el producto y los razonamientos detrás de las reseñas.
  • Predicción del precio de las acciones: en la industria financiera, el más clásico ayuda al modelo de predicción procesando información auxiliar de las redes sociales y otra información textual de Internet. Estudios previos sobre el precio de las acciones japonesas realizados por Dong et.al. indica que el modelo con módulo subjetivo y objetivo puede funcionar mejor que aquellos sin esta parte. [32]
  • Análisis de redes sociales.
  • Clasificación de los comentarios de los estudiantes. [33]
  • Resumen de documentos: el clasificador puede extraer comentarios específicos del objetivo y recopilar opiniones hechas por una entidad en particular.
  • Complex question answering. The classifier can dissect the complex questions by classing the language subject or objective and focused target. In the research Yu et al.(2003), the researcher developed a sentence and document level clustered that identity opinion pieces.[34]
  • Domain-specific applications.
  • Email analysis: The subjective and objective classifier detects spam by tracing language patterns with target words.

Feature/aspect-based[edit]

It refers to determining the opinions or sentiments expressed on different features or aspects of entities, e.g., of a cell phone, a digital camera, or a bank.[35] A feature or aspect is an attribute or component of an entity, e.g., the screen of a cell phone, the service for a restaurant, or the picture quality of a camera. The advantage of feature-based sentiment analysis is the possibility to capture nuances about objects of interest. Different features can generate different sentiment responses, for example a hotel can have a convenient location, but mediocre food.[36] This problem involves several sub-problems, e.g., identifying relevant entities, extracting their features/aspects, and determining whether an opinion expressed on each feature/aspect is positive, negative or neutral.[37] The automatic identification of features can be performed with syntactic methods, with topic modeling,[38][39] or with deep learning.[40][41] More detailed discussions about this level of sentiment analysis can be found in Liu's work.[23]

Methods and features[edit]

Existing approaches to sentiment analysis can be grouped into three main categories: knowledge-based techniques, statistical methods, and hybrid approaches.[42] Knowledge-based techniques classify text by affect categories based on the presence of unambiguous affect words such as happy, sad, afraid, and bored.[43] Some knowledge bases not only list obvious affect words, but also assign arbitrary words a probable "affinity" to particular emotions.[44] Statistical methods leverage elements from machine learning such as latent semantic analysis, support vector machines, "bag of words", "Pointwise Mutual Information" for Semantic Orientation,[5] and deep learning. More sophisticated methods try to detect the holder of a sentiment (i.e., the person who maintains that affective state) and the target (i.e., the entity about which the affect is felt).[45] To mine the opinion in context and get the feature about which the speaker has opined, the grammatical relationships of words are used. Grammatical dependency relations are obtained by deep parsing of the text.[46] Hybrid approaches leverage both machine learning and elements from knowledge representation such as ontologies and semantic networks in order to detect semantics that are expressed in a subtle manner, e.g., through the analysis of concepts that do not explicitly convey relevant information, but which are implicitly linked to other concepts that do so.[47]

Open source software tools as well as range of free and paid sentiment analysis tools deploy machine learning, statistics, and natural language processing techniques to automate sentiment analysis on large collections of texts, including web pages, online news, internet discussion groups, online reviews, web blogs, and social media.[48] Knowledge-based systems, on the other hand, make use of publicly available resources, to extract the semantic and affective information associated with natural language concepts. The system can help perform affective commonsense reasoning.[49] Sentiment analysis can also be performed on visual content, i.e., images and videos (see Multimodal sentiment analysis). One of the first approaches in this direction is SentiBank[50] utilizing an adjective noun pair representation of visual content. In addition, the vast majority of sentiment classification approaches rely on the bag-of-words model, which disregards context, grammar and even word order. Approaches that analyses the sentiment based on how words compose the meaning of longer phrases have shown better result,[51] but they incur an additional annotation overhead.

A human analysis component is required in sentiment analysis, as automated systems are not able to analyze historical tendencies of the individual commenter, or the platform and are often classified incorrectly in their expressed sentiment. Automation impacts approximately 23% of comments that are correctly classified by humans.[52] However, humans often disagree, and it is argued that the inter-human agreement provides an upper bound that automated sentiment classifiers can eventually reach.[53]

Evaluation[edit]

The accuracy of a sentiment analysis system is, in principle, how well it agrees with human judgments. This is usually measured by variant measures based on precision and recall over the two target categories of negative and positive texts. However, according to research human raters typically only agree about 80%[54] of the time (see Inter-rater reliability). Thus, a program that achieves 70% accuracy in classifying sentiment is doing nearly as well as humans, even though such accuracy may not sound impressive. If a program were "right" 100% of the time, humans would still disagree with it about 20% of the time, since they disagree that much about any answer.[55]

On the other hand, computer systems will make very different errors than human assessors, and thus the figures are not entirely comparable. For instance, a computer system will have trouble with negations, exaggerations, jokes, or sarcasm, which typically are easy to handle for a human reader: some errors a computer system makes will seem overly naive to a human. In general, the utility for practical commercial tasks of sentiment analysis as it is defined in academic research has been called into question, mostly since the simple one-dimensional model of sentiment from negative to positive yields rather little actionable information for a client worrying about the effect of public discourse on e.g. brand or corporate reputation.[56][57][58]

To better fit market needs, evaluation of sentiment analysis has moved to more task-based measures, formulated together with representatives from PR agencies and market research professionals. The focus in e.g. the RepLab evaluation data set is less on the content of the text under consideration and more on the effect of the text in question on brand reputation.[59][60][61]

Because evaluation of sentiment analysis is becoming more and more task based, each implementation needs a separate training model to get a more accurate representation of sentiment for a given data set.

Web 2.0[edit]

The rise of social media such as blogs and social networks has fueled interest in sentiment analysis. With the proliferation of reviews, ratings, recommendations and other forms of online expression, online opinion has turned into a kind of virtual currency for businesses looking to market their products, identify new opportunities and manage their reputations. As businesses look to automate the process of filtering out the noise, understanding the conversations, identifying the relevant content and actioning it appropriately, many are now looking to the field of sentiment analysis.[62] Further complicating the matter, is the rise of anonymous social media platforms such as 4chan and Reddit.[63] If web 2.0 was all about democratizing publishing, then the next stage of the web may well be based on democratizing data mining of all the content that is getting published.[64]

One step towards this aim is accomplished in research. Several research teams in universities around the world currently focus on understanding the dynamics of sentiment in e-communities through sentiment analysis.[65] The CyberEmotions project, for instance, recently identified the role of negative emotions in driving social networks discussions.[66]

The problem is that most sentiment analysis algorithms use simple terms to express sentiment about a product or service. However, cultural factors, linguistic nuances, and differing contexts make it extremely difficult to turn a string of written text into a simple pro or con sentiment.[62] The fact that humans often disagree on the sentiment of text illustrates how big a task it is for computers to get this right. The shorter the string of text, the harder it becomes.

Even though short text strings might be a problem, sentiment analysis within microblogging has shown that Twitter can be seen as a valid online indicator of political sentiment. Tweets' political sentiment demonstrates close correspondence to parties' and politicians' political positions, indicating that the content of Twitter messages plausibly reflects the offline political landscape.[67] Furthermore, sentiment analysis on Twitter has also been shown to capture the public mood behind human reproduction cycles on a planetary scale[peacock term],[68] as well as other problems of public-health relevance such as adverse drug reactions.[69]

Application in recommender systems[edit]

For a recommender system, sentiment analysis has been proven to be a valuable technique. A recommender system aims to predict the preference for an item of a target user. Mainstream recommender systems work on explicit data set. For example, collaborative filtering works on the rating matrix, and content-based filtering works on the meta-data of the items.

In many social networking services or e-commerce websites, users can provide text review, comment or feedback to the items. These user-generated text provide a rich source of user's sentiment opinions about numerous products and items. Potentially, for an item, such text can reveal both the related feature/aspects of the item and the users' sentiments on each feature.[70] The item's feature/aspects described in the text play the same role with the meta-data in content-based filtering, but the former are more valuable for the recommender system. Since these features are broadly mentioned by users in their reviews, they can be seen as the most crucial features that can significantly influence the user's experience on the item, while the meta-data of the item (usually provided by the producers instead of consumers) may ignore features that are concerned by the users. For different items with common features, a user may give different sentiments. Also, a feature of the same item may receive different sentiments from different users. Users' sentiments on the features can be regarded as a multi-dimensional rating score, reflecting their preference on the items.

Based on the feature/aspects and the sentiments extracted from the user-generated text, a hybrid recommender system can be constructed.[71] There are two types of motivation to recommend a candidate item to a user. The first motivation is the candidate item have numerous common features with the user's preferred items,[72] while the second motivation is that the candidate item receives a high sentiment on its features. For a preferred item, it is reasonable to believe that items with the same features will have a similar function or utility. So, these items will also likely to be preferred by the user. On the other hand, for a shared feature of two candidate items, other users may give positive sentiment to one of them while giving negative sentiment to another. Clearly, the high evaluated item should be recommended to the user. Based on these two motivations, a combination ranking score of similarity and sentiment rating can be constructed for each candidate item.[71]

Except for the difficulty of the sentiment analysis itself, applying sentiment analysis on reviews or feedback also faces the challenge of spam and biased reviews. One direction of work is focused on evaluating the helpfulness of each review.[73] Review or feedback poorly written is hardly helpful for recommender system. Besides, a review can be designed to hinder sales of a target product, thus be harmful to the recommender system even it is well written.

Researchers also found that long and short forms of user-generated text should be treated differently. An interesting result shows that short-form reviews are sometimes more helpful than long-form,[74] because it is easier to filter out the noise in a short-form text. For the long-form text, the growing length of the text does not always bring a proportionate increase in the number of features or sentiments in the text.

Lamba & Madhusudhan[75] introduce a nascent way to cater the information needs of today’s library users by repackaging the results from sentiment analysis of social media platforms like Twitter and provide it as a consolidated time-based service in different formats. Further, they propose a new way of conducting marketing in libraries using social media mining and sentiment analysis.

See also[edit]

  • Emotion recognition
  • Market sentiment
  • Behavioral analysis of markets
  • Stylometry

References[edit]

  1. ^ Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition for Vietnamese Social Media Text". In Proceedings of the 2019 International Conference of the Pacific Association for Computational Linguistics (PACLING 2019), Hanoi, Vietnam (2019).
  2. ^ Stone, Philip J., Dexter C. Dunphy, and Marshall S. Smith. "The general inquirer: A computer approach to content analysis." MIT Press, Cambridge, MA (1966).
  3. ^ Gottschalk, Louis August, and Goldine C. Gleser. The measurement of psychological states through the content analysis of verbal behavior. Univ of California Press, 1969.
  4. ^ USA Issued 7,136,877, Volcani, Yanon; & Fogel, David B., "System and method for determining and controlling the impact of text", published June 28, 2001 
  5. ^ a b Turney, Peter (2002). "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews". Proceedings of the Association for Computational Linguistics. pp. 417–424. arXiv:cs.LG/0212032.
  6. ^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up? Sentiment Classification using Machine Learning Techniques". Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). pp. 79–86.
  7. ^ a b Pang, Bo; Lee, Lillian (2005). "Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales". Proceedings of the Association for Computational Linguistics (ACL). pp. 115–124.
  8. ^ a b Snyder, Benjamin; Barzilay, Regina (2007). "Multiple Aspect Ranking using the Good Grief Algorithm". Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL). pp. 300–307.
  9. ^ Qu, Yan, James Shanahan, and Janyce Wiebe. "Exploring attitude and affect in text: Theories and applications." In AAAI Spring Symposium) Technical report SS-04-07. AAAI Press, Menlo Park, CA. 2004.
  10. ^ Vryniotis, Vasilis (2013). The importance of Neutral Class in Sentiment Analysis.
  11. ^ Koppel, Moshe; Schler, Jonathan (2006). "The Importance of Neutral Examples for Learning Sentiment". Computational Intelligence 22. pp. 100–109. CiteSeerX 10.1.1.84.9735.
  12. ^ Ribeiro, Filipe Nunes; Araujo, Matheus (2010). "A Benchmark Comparison of State-of-the-Practice Sentiment Analysis Methods". Transactions on Embedded Computing Systems. 9 (4).
  13. ^ Taboada, Maite; Brooke, Julian (2011). "Lexicon-based methods for sentiment analysis". Computational Linguistics. 37 (2): 272–274. CiteSeerX 10.1.1.188.5517. doi:10.1162/coli_a_00049. S2CID 3181362.
  14. ^ Augustyniak, Łukasz; Szymański, Piotr; Kajdanowicz, Tomasz; Tuligłowicz, Włodzimierz (2015-12-25). "Comprehensive Study on Lexicon-based Ensemble Classification Sentiment Analysis". Entropy. 18 (1): 4. Bibcode:2015Entrp..18....4A. doi:10.3390/e18010004.
  15. ^ Mehmood, Yasir; Balakrishnan, Vimala (2020-01-01). "An enhanced lexicon-based approach for sentiment analysis: a case study on illegal immigration". Online Information Review. 44 (5): 1097–1117. doi:10.1108/OIR-10-2018-0295. ISSN 1468-4527.
  16. ^ Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid (2010). "Sentiment strength detection in short informal text". Journal of the American Society for Information Science and Technology. 61 (12): 2544–2558. CiteSeerX 10.1.1.278.3863. doi:10.1002/asi.21416.
  17. ^ Pang, Bo; Lee, Lillian (2008). "4.1.2 Subjectivity Detection and Opinion Identification". Opinion Mining and Sentiment Analysis. Now Publishers Inc.
  18. ^ Mihalcea, Rada; Banea, Carmen; Wiebe, Janyce (2007). "Learning Multilingual Subjective Language via Cross-Lingual Projections" (PDF). Proceedings of the Association for Computational Linguistics (ACL). pp. 976–983. Archived from the original (PDF) on 2010-07-08.
  19. ^ Su, Fangzhong; Markert, Katja (2008). "From Words to Senses: a Case Study in Subjectivity Recognition" (PDF). Proceedings of Coling 2008, Manchester, UK.
  20. ^ Pang, Bo; Lee, Lillian (2004). "A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts". Proceedings of the Association for Computational Linguistics (ACL). pp. 271–278.
  21. ^ a b Wiebe, Janyce; Riloff, Ellen (2005). Gelbukh, Alexander (ed.). "Creating Subjective and Objective Sentence Classifiers from Unannotated Texts". Computational Linguistics and Intelligent Text Processing. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. 3406: 486–497. doi:10.1007/978-3-540-30586-6_53. ISBN 978-3-540-30586-6.
  22. ^ Quirk, Randolph; Greenbaum, Sidney; Geoffrey, Leech; Jan, Svartvik (1985). A Comprehensive Grammar of the English Language (General Grammar). Longman. pp. 175–239. ISBN 1933108312.
  23. ^ a b c Liu, Bing (2010). "Sentiment Analysis and Subjectivity" (PDF). In Indurkhya, N.; Damerau, F. J. (eds.). Handbook of Natural Language Processing (Second ed.).
  24. ^ a b Pang, Bo; Lee, Lillian (2008-07-06). "Opinion Mining and Sentiment Analysis". Foundations and Trends in Information Retrieval. 2 (1–2): 1–135. doi:10.1561/1500000011. ISSN 1554-0669.
  25. ^ Riloff, Ellen; Wiebe, Janyce (2003-07-11). "Learning extraction patterns for subjective expressions". Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. EMNLP '03. USA: Association for Computational Linguistics. 10: 105–112. doi:10.3115/1119355.1119369. S2CID 6541910.
  26. ^ Chaturvedi, Iti; Cambria, Erik; Welsch, Roy E.; Herrera, Francisco (November 2018). "Distinguishing between facts and opinions for sentiment analysis: Survey and challenges" (PDF). Information Fusion. 44: 65–77. doi:10.1016/j.inffus.2017.12.006 – via Elsevier Science Direct.
  27. ^ Wiebe, Janyce; Riloff, Ellen (July 2011). "Finding Mutual Benefit between Subjectivity Analysis and Information Extraction". IEEE Transactions on Affective Computing. 2 (4): 175–191. doi:10.1109/T-AFFC.2011.19. ISSN 1949-3045. S2CID 16820846.
  28. ^ Riloff, Ellen (1996-08-01). "An empirical study of automated dictionary construction for information extraction in three domains". Artificial Intelligence. 85 (1): 101–134. doi:10.1016/0004-3702(95)00123-9. ISSN 0004-3702.
  29. ^ Riloff, Ellen; Jones, Rosie (July 1999). "Learning dictionaries for information extraction by multi-level bootstrapping" (PDF). AAAI '99/IAAI '99: Proceedings of the Sixteenth National Conference on Artificial Intelligence and the Eleventh Innovative Applications of Artificial Intelligence Conference Innovative Applications of Artificial Intelligence: 474–479.
  30. ^ Thelen, Michael; Riloff, Ellen (2002-07-06). "A bootstrapping method for learning semantic lexicons using extraction pattern contexts". Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - Volume 10. EMNLP '02. USA: Association for Computational Linguistics. 10: 214–221. doi:10.3115/1118693.1118721. S2CID 137155.
  31. ^ Liu, Bing (2012-05-23). "Sentiment Analysis and Opinion Mining". Synthesis Lectures on Human Language Technologies. 5 (1): 1–167. doi:10.2200/S00416ED1V01Y201204HLT016. ISSN 1947-4040.
  32. ^ Deng, Shangkun; Mitsubuchi, Takashi; Shioda, Kei; Shimada, Tatsuro; Sakurai, Akito (December 2011). "Combining Technical Analysis with Sentiment Analysis for Stock Price Prediction". 2011 IEEE Ninth International Conference on Dependable, Autonomic and Secure Computing. IEEE: 800–807. doi:10.1109/dasc.2011.138. ISBN 978-1-4673-0006-3. S2CID 15262023.
  33. ^ Nguyen, Kiet Van; Nguyen, Vu Duc; Nguyen, Phu X.V.; Truong, Tham T.H.; Nguyen, Ngan L-T. (2018-10-01). "UIT-VSFC: Vietnamese Students' Feedback Corpus for Sentiment Analysis". 2018 10th International Conference on Knowledge and Systems Engineering (KSE). Vietnam: IEEE.
  34. ^ Yu, Hong; Hatzivassiloglou, Vasileios (2003-07-11). "Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences". Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. EMNLP '03. USA: Association for Computational Linguistics: 129–136. doi:10.3115/1119355.1119372.
  35. ^ Hu, Minqing; Liu, Bing (2004). "Mining and Summarizing Customer Reviews". Proceedings of KDD 2004.
  36. ^ Cataldi, Mario; Ballatore, Andrea; Tiddi, Ilaria; Aufaure, Marie-Aude (2013-06-22). "Good location, terrible food: detecting feature sentiment in user-generated reviews". Social Network Analysis and Mining. 3 (4): 1149–1163. CiteSeerX 10.1.1.396.9313. doi:10.1007/s13278-013-0119-7. ISSN 1869-5450. S2CID 5025282.
  37. ^ Liu, Bing; Hu, Minqing; Cheng, Junsheng (2005). "Opinion Observer: Analyzing and Comparing Opinions on the Web". Proceedings of WWW 2005.
  38. ^ Zhai, Zhongwu; Liu, Bing; Xu, Hua; Jia, Peifa (2011-01-01). Huang, Joshua Zhexue; Cao, Longbing; Srivastava, Jaideep (eds.). Constrained LDA for Grouping Product Features in Opinion Mining. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 448–459. CiteSeerX 10.1.1.221.5178. doi:10.1007/978-3-642-20841-6_37. ISBN 978-3-642-20840-9.
  39. ^ Titov, Ivan; McDonald, Ryan (2008-01-01). Modeling Online Reviews with Multi-grain Topic Models. Proceedings of the 17th International Conference on World Wide Web. WWW '08. New York, NY, USA: ACM. pp. 111–120. arXiv:0801.1063. doi:10.1145/1367497.1367513. ISBN 978-1-60558-085-2. S2CID 13609860.
  40. ^ Poria, Soujanya; et al. (2016). "Aspect extraction for opinion mining with a deep convolutional neural network". Knowledge-Based Systems. 108: 42–49. doi:10.1016/j.knosys.2016.06.009.
  41. ^ Ma, Yukun; et al. (2018). "Targeted aspect-based sentiment analysis via embedding commonsense knowledge into an attentive LSTM". Proceedings of AAAI. pp. 5876–5883.
  42. ^ Cambria, E; Schuller, B; Xia, Y; Havasi, C (2013). "New avenues in opinion mining and sentiment analysis". IEEE Intelligent Systems. 28 (2): 15–21. CiteSeerX 10.1.1.688.1384. doi:10.1109/MIS.2013.30. S2CID 12104996.
  43. ^ Ortony, Andrew; Clore, G; Collins, A (1988). The Cognitive Structure of Emotions (PDF). Cambridge Univ. Press. Archived from the original (PDF) on 2015-11-23.
  44. ^ Stevenson, Ryan; Mikels, Joseph; James, Thomas (2007). "Characterization of the Affective Norms for English Words by Discrete Emotional Categories" (PDF). Behavior Research Methods. 39 (4): 1020–1024. doi:10.3758/bf03192999. PMID 18183921. S2CID 6673690.
  45. ^ Kim, S. M.; Hovy, E. H. (2006). "Identifying and Analyzing Judgment Opinions." (PDF). Proceedings of the Human Language Technology / North American Association of Computational Linguistics conference (HLT-NAACL 2006). New York, NY. Archived from the original (PDF) on 2011-06-29.
  46. ^ Dey, Lipika; Haque, S. K. Mirajul (2008). "Opinion Mining from Noisy Text Data". Proceedings of the second workshop on Analytics for noisy unstructured text data, p.83-90.
  47. ^ Cambria, E; Hussain, A (2015). Sentic Computing: A Common-Sense-Based Framework for Concept-Level Sentiment Analysis. Springer. ISBN 9783319236544.
  48. ^ Akcora, Cuneyt Gurcan; Bayir, Murat Ali; Demirbas, Murat; Ferhatosmanoglu, Hakan (2010). "Identifying breakpoints in public opinion". SigKDD, Proceedings of the First Workshop on Social Media Analytics.
  49. ^ Sasikala, P.; Mary Immaculate Sheela, L. (December 2020). "Sentiment analysis of online product reviews using DLMNN and future prediction of online product using IANFIS". Journal of Big Data. 7 (1): 33. doi:10.1186/s40537-020-00308-7. ISSN 2196-1115.
  50. ^ Borth, Damian; Ji, Rongrong; Chen, Tao; Breuel, Thomas; Chang, Shih-Fu (2013). "Large-scale Visual Sentiment Ontology and Detectors Using Adjective Noun Pairs". Proceedings of ACM Int. Conference on Multimedia. pp. 223–232.
  51. ^ Socher, Richard; Perelygin, Alex; Wu, Jean Y.; Chuang, Jason; Manning, Christopher D.; Ng, Andrew Y.; Potts, Christopher (2013). "Recursive deep models for semantic compositionality over a sentiment treebank". In Proceedings of EMNLP: 1631–1642. CiteSeerX 10.1.1.593.7427.
  52. ^ "Case Study: Advanced Sentiment Analysis". Retrieved 18 October 2013.
  53. ^ Mozetič, Igor; Grčar, Miha; Smailović, Jasmina (2016-05-05). "Multilingual Twitter Sentiment Classification: The Role of Human Annotators". PLOS ONE. 11 (5): e0155036. arXiv:1602.07563. Bibcode:2016PLoSO..1155036M. doi:10.1371/journal.pone.0155036. ISSN 1932-6203. PMC 4858191. PMID 27149621.
  54. ^ Ogneva, M. "How Companies Can Use Sentiment Analysis to Improve Their Business". Mashable. Retrieved 2012-12-13.
  55. ^ Roebuck, K. (2012-10-24). Sentiment Analysis: High-impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. ISBN 9781743049457.
  56. ^ Karlgren, Jussi, Magnus Sahlgren, Fredrik Olsson, Fredrik Espinoza, and Ola Hamfors. "Usefulness of sentiment analysis." In European Conference on Information Retrieval, pp. 426-435. Springer Berlin Heidelberg, 2012.
  57. ^ Karlgren, Jussi. "The relation between author mood and affect to sentiment in text and text genre." In Proceedings of the fourth workshop on Exploiting semantic annotations in information retrieval, pp. 9-10. ACM, 2011.
  58. ^ Karlgren, Jussi. "Affect, appeal, and sentiment as factors influencing interaction with multimedia information." In Proceedings of Theseus/ImageCLEF workshop on visual information retrieval evaluation, pp. 8-11. 2009.
  59. ^ Amigó, Enrique, Adolfo Corujo, Julio Gonzalo, Edgar Meij, and Maarten de Rijke. "Overview of RepLab 2012: Evaluating Online Reputation Management Systems." In CLEF (Online Working Notes/Labs/Workshop). 2012.
  60. ^ Amigó, Enrique, Jorge Carrillo De Albornoz, Irina Chugur, Adolfo Corujo, Julio Gonzalo, Tamara Martín, Edgar Meij, Maarten de Rijke, and Damiano Spina. "Overview of replab 2013: Evaluating online reputation monitoring systems." In International Conference of the Cross-Language Evaluation Forum for European Languages, pp. 333-352. Springer Berlin Heidelberg, 2013.
  61. ^ Amigó, Enrique, Jorge Carrillo-de-Albornoz, Irina Chugur, Adolfo Corujo, Julio Gonzalo, Edgar Meij, Maarten de Rijke, and Damiano Spina. "Overview of replab 2014: author profiling and reputation dimensions for online reputation management." In International Conference of the Cross-Language Evaluation Forum for European Languages, pp. 307-322. Springer International Publishing, 2014.
  62. ^ a b Wright, Alex. "Mining the Web for Feelings, Not Facts", New York Times, 2009-08-23. Retrieved on 2009-10-01.
  63. ^ "Sentiment Analysis on Reddit". 2014-09-30. Retrieved 10 October 2014.
  64. ^ Kirkpatrick, Marshall. ", ReadWriteWeb, 2009-04-15. Retrieved on 2009-10-01.
  65. ^ CORDIS. "Collective emotions in cyberspace (CYBEREMOTIONS)", European Commission, 2009-02-03. Retrieved on 2010-12-13.
  66. ^ Condliffe, Jamie. "Flaming drives online social networks ", New Scientist, 2010-12-07. Retrieved on 2010-12-13.
  67. ^ Tumasjan, Andranik; O.Sprenger, Timm; G.Sandner, Philipp; M.Welpe, Isabell (2010). "Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment". "Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media"
  68. ^ Wood, Ian B.; Varela, Pedro L.; Bollen, Johan; Rocha, Luis M.; Gonçalves-Sá, Joana (2017). "Human Sexual Cycles are Driven by Culture and Match Collective Moods". Scientific Reports. 7 (1): 17973. arXiv:1707.03959. Bibcode:2017NatSR...717973W. doi:10.1038/s41598-017-18262-5. PMC 5740080. PMID 29269945.
  69. ^ Korkontzelos, Ioannis; Nikfarjam, Azadeh; Shardlow, Matthew; Sarker, Abeed; Ananiadou, Sophia; Gonzalez, Graciela H. (2016). "Analysis of the effect of sentiment analysis on extracting adverse drug reactions from tweets and forum posts". Journal of Biomedical Informatics. 62: 148–158. doi:10.1016/j.jbi.2016.06.007. PMC 4981644. PMID 27363901.
  70. ^ Tang, Huifeng; Tan, Songbo; Cheng, Xueqi (2009). "A survey on sentiment detection of reviews" (PDF). Expert Systems with Applications. 36 (7): 10760–10773. doi:10.1016/j.eswa.2009.02.063. S2CID 2178380. Archived from the original (PDF) on 2018-05-24.
  71. ^ a b Jakob, Niklas, et al. "Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations." Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion. ACM, 2009.
  72. ^ Minqing, Hu; Liu, Bing (2004). "Mining opinion features in customer reviews" (PDF). AAAI. 4 (4). S2CID 5724860. Archived from the original (PDF) on 2018-05-24.
  73. ^ Liu, Yang; Huang, Xiangji; An, Aijun; Yu, Xiaohui (2008). "Modeling and predicting the helpfulness of online reviews" (PDF). ICDM'08. Eighth IEEE international conference on Data mining. IEEE. pp. 443–452. doi:10.1109/ICDM.2008.94. ISBN 978-0-7695-3502-9. S2CID 18235238.
  74. ^ Bermingham, Adam; Smeaton, Alan F. (2010). Classifying sentiment in microblogs: is brevity an advantage? (PDF). Proceedings of the 19th ACM International Conference on Information and Knowledge Management. p. 1833. doi:10.1145/1871437.1871741. ISBN 9781450300995. S2CID 2084603.
  75. ^ Lamba, Manika; Madhusudhan, Margam (2018). "Application of sentiment analysis in libraries to provide temporal information service: a case study on various facets of productivity". Social Network Analysis and Mining. 8 (1): 1–12. doi:10.1007/s13278-018-0541-y. S2CID 53047128.